At 06:09 16-10-99 -0400, you wrote:
>Rekan2 milis,
>
>saya mempunyai sebuah kasus nih...
>saya sudah membuat program yg dapat membaca tiap kata yg ada di sebuah
>halaman web
maksudnya gimana? anda membuat sebuah program yang dapat
men-download halaman web tertentu (web robot), lalu anda
bingung bagaimana mengekstrak link dari HTML?
dengan perl, caranya bisa begini:
xurls.pl, 990928, steven haryanto:
=====
#!/usr/bin/perl
require HTML::LinkExtor;
%memory = ();
$p = HTML::LinkExtor->new(\&cb, "");
for (@ARGV) { $p->parse_file($_) }
sub cb {
my ($tag, %links) = @_;
for (values %links) {
s/#.*//; # buang anchor
print $_,"\n" if ++$memory{$_} == 1;
}
}
=====
cara make: ./xurls.pl file1.html file2.html ...
kalo pengen bikin web robot/spider yang bisa 'menguras'
isi site dengan mengikuti link, sedikit lebih susah.
di unix, anda bisa pake 'wget'. di win, ada Grab-a-Site/
offline browser lain...
>nah...sekarang ada masalah lainnya, bagaimana bila pada halaman web tsb ada
>link yg mengarah ke halaman web lain
>sebaiknya kan harus bisa diproses juga saat kita klik link tsb
>nah...bagaimana caranya? mungkin sudah ada yang pernah tahu caranya...
>
>bisa nggak sih link suatu web page itu di identifikasi?
bisa dong, kan ada polanya:
<A HREF="...">
<IMG SRC="...">
<SCRIPT SRC="...>
<BODY BACKGROUND="...">
dst.
>
>sangat diharapkan bantuannya nih...
>
>Terima kasih
--
Steven Haryanto <[EMAIL PROTECTED]>
Layanan Pertukaran Banner - http://www.indobanner.co.id
-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-
To unsubscribe, e-mail : [EMAIL PROTECTED]
To subscribe, e-mail : [EMAIL PROTECTED]
Netika BerInternet : [EMAIL PROTECTED]