Re: [webauthor] web link

Steven Haryanto Sat, 16 Oct 1999 04:09:33 -0700
At 06:09 16-10-99 -0400, you wrote:
>Rekan2 milis,
>
>saya mempunyai sebuah kasus nih...
>saya sudah membuat program yg dapat membaca tiap kata yg ada di sebuah
>halaman web

maksudnya gimana? anda membuat sebuah program yang dapat
men-download halaman web tertentu (web robot), lalu anda
bingung bagaimana mengekstrak link dari HTML?

dengan perl, caranya bisa begini:

xurls.pl, 990928, steven haryanto:
=====
#!/usr/bin/perl

require HTML::LinkExtor;
%memory = ();

$p = HTML::LinkExtor->new(\&cb, "");

for (@ARGV) { $p->parse_file($_) }

sub cb {
        my ($tag, %links) = @_;
        for (values %links) {
                s/#.*//; # buang anchor
                print $_,"\n" if ++$memory{$_} == 1;
        }
}
=====

cara make: ./xurls.pl file1.html file2.html ...

kalo pengen bikin web robot/spider yang bisa 'menguras'
isi site dengan mengikuti link, sedikit lebih susah.
di unix, anda bisa pake 'wget'. di win, ada Grab-a-Site/
offline browser lain...


>nah...sekarang ada masalah lainnya, bagaimana bila pada halaman web tsb ada
>link yg mengarah ke halaman web lain
>sebaiknya kan harus bisa diproses juga saat kita klik link tsb
>nah...bagaimana caranya? mungkin sudah ada yang pernah tahu caranya...
>
>bisa nggak sih link suatu web page itu di identifikasi?


bisa dong, kan ada polanya:
<A HREF="...">
<IMG SRC="...">
<SCRIPT SRC="...>
<BODY BACKGROUND="...">
dst.


>
>sangat diharapkan bantuannya nih...
>
>Terima kasih
--
Steven Haryanto <[EMAIL PROTECTED]>


      Layanan Pertukaran Banner - http://www.indobanner.co.id

-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-
To unsubscribe, e-mail : [EMAIL PROTECTED]
To subscribe, e-mail   : [EMAIL PROTECTED]
Netika BerInternet     : [EMAIL PROTECTED]
Re: [webauthor] web link

Kirim email ke