sorry , 我不懂html,

不过,就regex 来讲,应该是可以做到的,  就是写的复杂些吧




2009/9/3 Haiyan Lin <[email protected]>

> 好像有模块可以。刚从一本书上读到的代码。自己还没试过。把“http://www.braingia.org"换成你自己想用的网址试试看。
>
> !/usr/bin/perl -w
> use strict;
> use HTML::TreeBuilder;
> use HTML::FormatText;
> use LWP::Simple;
> my $webpage = get("http://www.braingia.org/";);
> my $htmltree = HTML::TreeBuilder->new->parse($webpage);
> my $output = HTML::FormatText->new();
> print $output->format($htmltree);
>
>
> ----- Original Message -----
> From: "蓝天下云层上" <[email protected]>
> To: "PerlChina Mongers 讨论组" <[email protected]>
> Sent: Wednesday, September 02, 2009 4:32 PM
> Subject: [PerlChina] 我写的总是不对.perl像google首页一样去掉html多余代码的正则怎么写?
>
>
> > 我写的总是不对.perl像google首页一样去掉html多余代码的正则怎么写?
> >
> > $msg = <html文件>
> >
> > $msg =~ s/~>\s+<~//g;
> > $msg =~ s/~>\s+\r?\n~//g;
> > $msg =~ s/<!--{2,}.*?-{2,}>//g;
> > $msg =~ s/<!--\[/!\]*?\[^<>\]*?>//g;
> >
> > 总是不对,不知道是哪不对?
> >
> > >
> >
>
>
> >
>


-- 
           Yours Sincerely
                   Zeng Hong

--~--~---------~--~----~------------~-------~--~----~
您收到此信息是由于您订阅了 Google 论坛“PerlChina Mongers 讨论组”论坛。
 要在此论坛发帖,请发电子邮件到 [email protected]
 要退订此论坛,请发邮件至 [email protected]
 更多选项,请通过 http://groups.google.com/group/perlchina?hl=zh-CN 访问该论坛
-~----------~----~----~----~------~----~------~--~---

回复