sorry , 我不懂html, 不过,就regex 来讲,应该是可以做到的, 就是写的复杂些吧
2009/9/3 Haiyan Lin <[email protected]> > 好像有模块可以。刚从一本书上读到的代码。自己还没试过。把“http://www.braingia.org"换成你自己想用的网址试试看。 > > !/usr/bin/perl -w > use strict; > use HTML::TreeBuilder; > use HTML::FormatText; > use LWP::Simple; > my $webpage = get("http://www.braingia.org/"); > my $htmltree = HTML::TreeBuilder->new->parse($webpage); > my $output = HTML::FormatText->new(); > print $output->format($htmltree); > > > ----- Original Message ----- > From: "蓝天下云层上" <[email protected]> > To: "PerlChina Mongers 讨论组" <[email protected]> > Sent: Wednesday, September 02, 2009 4:32 PM > Subject: [PerlChina] 我写的总是不对.perl像google首页一样去掉html多余代码的正则怎么写? > > > > 我写的总是不对.perl像google首页一样去掉html多余代码的正则怎么写? > > > > $msg = <html文件> > > > > $msg =~ s/~>\s+<~//g; > > $msg =~ s/~>\s+\r?\n~//g; > > $msg =~ s/<!--{2,}.*?-{2,}>//g; > > $msg =~ s/<!--\[/!\]*?\[^<>\]*?>//g; > > > > 总是不对,不知道是哪不对? > > > > > > > > > > > > -- Yours Sincerely Zeng Hong --~--~---------~--~----~------------~-------~--~----~ 您收到此信息是由于您订阅了 Google 论坛“PerlChina Mongers 讨论组”论坛。 要在此论坛发帖,请发电子邮件到 [email protected] 要退订此论坛,请发邮件至 [email protected] 更多选项,请通过 http://groups.google.com/group/perlchina?hl=zh-CN 访问该论坛 -~----------~----~----~----~------~----~------~--~---
