On Thu, 12 Feb 2004, Fabian Vilers wrote: > -----BEGIN PGP SIGNED MESSAGE----- > Hash: SHA1 > > Bonjour le peuple, > > J'imagine que le fonctionne d'un moteur de recherche tel que Google est > du style crawler. Il scan en permanence le web et index les pages. > L'attribution du ranking est li� aux metatag keyword ainsi qu'au contenu > des pages. Je pense bien qu'il fait �galement le lien entre ces m�mes > keywords et le contenu de la page. > > Fort bien. Mais comment s'y prend-t-il rellement? J'imagine qu'il choppe > la page index du site www.domaine.com. Et ensuite? Est-ce qu'il suit les > lien interne au site contenu dans cette page? Est-ce qu'il agit du style > aspirateur ou il pompe toutes les pages physiques sur le site? > D'ailleurs, comment peut-il savoir quelles sont les pages qui existent? > > Tout cela, pour en venir � une question sur les pages dynamiques. Soit > un site avec une page index.php. Cette page peut prendre comme argument > id=<id> o� id repr�sente l'identifiant d'une page � compos�e > dynamiquement. Est-ce que mon crawler est capable d'indexer ces pages > l�? IMHO, je ne pense pas. Mais l'avis des experts sur cette liste ne > pourra que m'�clairer d'avantage.
Si tu veux voir le comportement du Googlebot/2.x, il suffit de lire l'access-log d'un serveur web avec quelque(s) r�f(s) et d'en d�duire le fonctionnement. Oui, un crawler peut prendre des pages dynamiques sans probl�mes. En fait, il semble utiliser une m�thode en plusieurs phases pour sa collection. On peut remarquer qu'il utilise une m�thode de construction des index � prendre pour fonctionner par site par la suite. Un bon exemple de bot est l'indexer de mnogosearch (regarder indexer.c). hope this helps, adulau -- ** Alexandre Dulaunoy (adulau) **** http://www.foo.be/ **** 0x44E6CBCD **/ "To disable the Internet to save EMI and Disney is the moral **/ equivalent of burning down the library of Alexandria to ensure the **/ livelihood of monastic scribes." Jon Ippolito. _______________________________________________________ Linux Mailing List - http://www.unixtech.be Subscribe/Unsubscribe: http://www.unixtech.be/mailman/listinfo/linux Archives: http://www.mail-archive.com/[EMAIL PROTECTED] IRC: chat.unixtech.be:6667 - #unixtech

