Kali ini saya berusaha untuk membuat script yang mampu memfecth tag href
dari sebuah document HTML.
# FetchURL.pl
# Get all URLs in a document
# URL is "<A HREF=...></A>
# Think about URL refers to current document...anchor -> gotcha
# Cannot fetch more than URL in a row
$FILE=@ARGV[0];
print "Fetching $FILE\n";
open(HTML,$FILE);
while(<HTML>) {
$input=$_;
@url_arr=split(/(<[Aa]\s)/,$_);
foreach $hreftag (@url_arr) {
$_=$hreftag;
/HREF/i && print $hreftag, "\n";
/HREF\s*=\s*"(.*)"\s*>(.*)<\/A>/i && print $1, "=>", $2, "\n";
}
}
nah scriptnya seperti di atas, masalahnya hasil oututnya bisa seperti ini:
Fetching zdnet.html
ini string yang di cek:
CLASS="tlink" HREF="http://www.zdnet.com/special/filters/sc/camera/"
TARGET="_top">Cameras</A><SPAN CLASS="tsep"> | </SPAN>
hasilnya:
http://www.zdnet.com/special/filters/sc/camera/" TARGET="_top=>Cameras
nah...bagaimana caranya supaya TARGET tidak ikut??
Mohon pencerahannya.
--
~ while (bad_day){
do Coding;
}
~
,==================+========================================,
d Akhmad Fathonih | E-mail: [EMAIL PROTECTED] b
C F M I P A | Address: Al Ihsan 15 Keplaksari, B
C Ilmu Komputer | Peterongan, Jombang, B
C U G M | Jatim, Indonesia 61481 B
q | p
`==================+========================================'
--------------------------------------------------------------------------------
Utk berhenti langganan, kirim email ke [EMAIL PROTECTED]
Informasi arsip di http://www.linux.or.id/milis.php3
Pengelola dapat dihubungi lewat [EMAIL PROTECTED]