[programming] REgexp Perl

AKHMAD_F Wed, 21 Mar 2001 21:33:19 -0800
Kali ini saya berusaha untuk membuat script yang mampu memfecth tag href
dari sebuah document HTML.
# FetchURL.pl
# Get all URLs in a document
# URL is "<A HREF=...></A>
# Think about URL refers to current document...anchor -> gotcha
# Cannot fetch more than URL in a row  

$FILE=@ARGV[0];

print "Fetching $FILE\n";

open(HTML,$FILE);
while(<HTML>) {
   $input=$_;
        @url_arr=split(/(<[Aa]\s)/,$_);
        foreach $hreftag (@url_arr) {
                $_=$hreftag;
                /HREF/i && print $hreftag, "\n";
                /HREF\s*=\s*"(.*)"\s*>(.*)<\/A>/i && print $1, "=>", $2, "\n";
        }
}        

nah scriptnya seperti di atas, masalahnya hasil oututnya bisa seperti ini:
Fetching zdnet.html
ini string yang di cek:
CLASS="tlink" HREF="http://www.zdnet.com/special/filters/sc/camera/" 
TARGET="_top">Cameras</A><SPAN CLASS="tsep">&nbsp;&#124;&nbsp;</SPAN>
hasilnya:
http://www.zdnet.com/special/filters/sc/camera/" TARGET="_top=>Cameras
nah...bagaimana caranya supaya TARGET tidak ikut??

Mohon pencerahannya.

-- 

~ while (bad_day){
     do Coding;
  }
~
,==================+========================================,
d Akhmad Fathonih  |  E-mail:  [EMAIL PROTECTED]   b
C    F M I P A     |  Address: Al Ihsan 15 Keplaksari,      B
C  Ilmu Komputer   |           Peterongan, Jombang,         B 
C      U G M       |           Jatim, Indonesia 61481       B
q                  |                                        p
`==================+========================================'


--------------------------------------------------------------------------------
Utk berhenti langganan, kirim email ke [EMAIL PROTECTED]
Informasi arsip di http://www.linux.or.id/milis.php3
Pengelola dapat dihubungi lewat [EMAIL PROTECTED]
[programming] REgexp Perl

Kirim email ke