On Thu, 12 Feb 2004, Fabian Vilers wrote:

> -----BEGIN PGP SIGNED MESSAGE-----
> Hash: SHA1
>
> Bonjour le peuple,
>
> J'imagine que le fonctionne d'un moteur de recherche tel que Google est
> du style crawler. Il scan en permanence le web et index les pages.
> L'attribution du ranking est li� aux metatag keyword ainsi qu'au contenu
> des pages. Je pense bien qu'il fait �galement le lien entre ces m�mes
> keywords et le contenu de la page.
>
> Fort bien. Mais comment s'y prend-t-il rellement? J'imagine qu'il choppe
> la page index du site www.domaine.com. Et ensuite? Est-ce qu'il suit les
> lien interne au site contenu dans cette page? Est-ce qu'il agit du style
> aspirateur ou il pompe toutes les pages physiques sur le site?
> D'ailleurs, comment peut-il savoir quelles sont les pages qui existent?
>
> Tout cela, pour en venir � une question sur les pages dynamiques. Soit
> un site avec une page index.php. Cette page peut prendre comme argument
> id=<id> o� id repr�sente l'identifiant d'une page � compos�e
> dynamiquement. Est-ce que mon crawler est capable d'indexer ces pages
> l�? IMHO, je ne pense pas. Mais l'avis des experts sur cette liste ne
> pourra que m'�clairer d'avantage.

Si tu  veux voir le comportement  du Googlebot/2.x, il  suffit de lire
l'access-log d'un  serveur web avec quelque(s) r�f(s)  et d'en d�duire
le fonctionnement.

Oui, un crawler peut prendre des pages dynamiques sans probl�mes.

En fait,  il semble utiliser une  m�thode en plusieurs  phases pour sa
collection.   On   peut  remarquer   qu'il  utilise  une   m�thode  de
construction  des index  � prendre  pour fonctionner  par site  par la
suite.

Un  bon  exemple  de   bot  est  l'indexer  de  mnogosearch  (regarder
indexer.c).

hope this helps,

adulau

-- 
** Alexandre Dulaunoy (adulau) **** http://www.foo.be/ **** 0x44E6CBCD
**/ "To  disable the  Internet to  save EMI  and Disney  is  the moral
**/ equivalent of burning down the library of Alexandria to ensure the
**/ livelihood of monastic scribes." Jon Ippolito.



_______________________________________________________
Linux Mailing List - http://www.unixtech.be
Subscribe/Unsubscribe: http://www.unixtech.be/mailman/listinfo/linux
Archives: http://www.mail-archive.com/[EMAIL PROTECTED]
IRC: chat.unixtech.be:6667 - #unixtech

Répondre à