Re: [motrech] Commentaires sur Le pire tout Pire
La conclusion de ma présentation est la suivante : - Un grid fournit principalement des ressources calcul - Actuellement les documents webs sont analysés, parsés, traités le plus rapidemment possible Mais le goulot d'étranglement d'un moteur de recherche est bien souvent la bande passante, plus que la puissance de calcul. C'est ce qu'on dit souvent, mais j'ai la vilaine impression que le temps CPU coute bcp plus d'argent que la bande passante et que le doublement de bande passante engendrerait un doublement en besoin matériel pour le traitement de l'indexation. En écrivant cela, j'ai toute conscience que ce n'est pas très sérieux d'avancer ce genre de chose en se fiant à sa simple intuition, mais j'ai l'impresssion d'avoir déjà lu ce genre de point de vue à l'égard de la bande passante. Il faudrait que je retrouve ces articles. - appliquer des traitements d'analyses précis et nombreux (plutot que par exemple une approximation de la langue du document) Je suis curieux... Je ne connais actuellement pas d'autres moyens d'identifier la langue que celles proposées aujourd'hui par exemple dans Nutch: Utilisation des méta-données + analyse statistique du contenu. Si je ne me trompe pas, pour identifier la langue actuellement : - utilisation d'un algorithme - utilisation d'un paramètre de précision - selon la valeur de ce paramètre, la précision grandit parallèlement au temps d'exécution. Me trompe-je ? J'espere que le débat sera bien là et constructif :) Personnellement, je suis impatient d'en lire plus sur le sujet!!! (PS: As-tu jeté un coup d'oeil sur le framework mapred de Nutch? Qu'en penses-tu?) Non, vraiment pas le temps :) Mais tout commentaire m'intéresse sur le sujet ! ;) A+ Jérôme -- http://motrech.free.fr/ http://www.frutch.org/ [Les parties de ce message comportant autre chose que du texte seul on été supprimées] - motrech - http://motrech.free.fr/ frutch - http://www.frutch.org/ - *Liens Yahoo! Groupes* * Pour consulter votre groupe en ligne, accédez à : http://fr.groups.yahoo.com/group/motrech/ * Pour vous désincrire de ce groupe, envoyez un mail à : [EMAIL PROTECTED] mailto:[EMAIL PROTECTED] * L'utilisation de Yahoo! Groupes est soumise à l'acceptation des conditions d'utilisation http://fr.docs.yahoo.com/info/utos.html. - motrech - http://motrech.free.fr/ frutch - http://www.frutch.org/ - Liens Yahoo! Groupes * Pour consulter votre groupe en ligne, accédez à : http://fr.groups.yahoo.com/group/motrech/ * Pour vous désincrire de ce groupe, envoyez un mail à : [EMAIL PROTECTED] * L'utilisation de Yahoo! Groupes est soumise à l'acceptation des : http://fr.docs.yahoo.com/info/utos.html
Re: [motrech] Commentaires sur Le pire tout Pire
On Thu, 19 Jan 2006 09:58:24 +0100 Christophe Noel [EMAIL PROTECTED] wrote: Si je ne me trompe pas, pour identifier la langue actuellement : - utilisation d'un algorithme - utilisation d'un paramètre de précision - selon la valeur de ce paramètre, la précision grandit parallèlement au temps d'exécution. Me trompe-je ? Non, mais c'est plutôt vague (content free...) Il suffit d'utiliser l'algorithme que la NSA utilise depuis 10 ans, qui fonctionne quelque soit la langue et l'encodage des caractères et qui identifie, et la langue et la thématique générale du texte. Malheureusement pas la différence entre we are watching for bomb making et we are progressing on bomb making :-P http://citeseer.ist.psu.edu/context/152504/0 Le PDF n'est pas online mais en cherchant bien on le trouve! JLD - motrech - http://motrech.free.fr/ frutch - http://www.frutch.org/ - Liens Yahoo! Groupes * Pour consulter votre groupe en ligne, accédez à : http://fr.groups.yahoo.com/group/motrech/ * Pour vous désincrire de ce groupe, envoyez un mail à : [EMAIL PROTECTED] * L'utilisation de Yahoo! Groupes est soumise à l'acceptation des : http://fr.docs.yahoo.com/info/utos.html
Re: [motrech] Commentaires sur Le pire tout Pire
D'après ce que j'ai lu de la structure de map-reduce, il semblerait que cela ne résiste pas aux facteurs d'échelle aussi conséquent que pour un grid... Mais je dirais que pour des raisons scientifiques, le projet ne pouvait betement reprendre Nutch tel quel, et donc je ne me suis pas attardé (pour l'instant) sur ce module. Je crois cependant que mes premiers essais ne se feront pas avant fin de l'année 06. A la question plus générale (et liée au billet sur le P2P) : Comment utiliser un système Grid pour distribuer crawling/indexing ? Pour un grid, il ne faut justement pas penser moteur de recherche. Un moteur n'est rien d'autres que du code. Un code permet d'effectuer des jobs. Des configurations (valeur du timeout, nombre de threads par host) peuvent à la liberté de l'utilisateur du job : - soit etre calculée (dans le code, on insère : si bande passante = x alors threads per host= Y, et on génère le fichier nutch-default en local sur le noeud) - soit etre passée en paramètre (on envoie avec les urls à crawler, le fichier nutch-default à utiliser) Il n'y a donc pas de pratique habituelle. La seule chose à retenir est que le grid ne fait / propose rien ... Tout est à la charge du programmeur. Tous les scénarios sont possibles... Pour la propogagation, elle est possible théoriquement. Mais en pratique, on utilisera rarement un mécanisme de propagation : si après LANCé le job(n) qui crawl 100.000 urls, je désire changer ma configuration (nutch-default.xml par exemple), alors je soumets la nouvelle configuration (le nouveau code) au grid. Le job(n) va continuer avec la configuration 1 Les jobs suivant utiliseront la configuration 2. Ces informations sont assez caricaturées, mais ne s'écartent que très peu de la réalité. Etant donné la complexité des technologies Grid, j'ai du parfois simplifier certaines réponses/concepts. Christophe Noel CETIC. Donc pour plus de questions n'hésitez pas ? Ma question est simple en fait: Tu as une configuration des processus qui vont tourner sur ta grille de calcul: Dans le cas d'un moteur de recherche, on pourrait imaginer : le nombre de threads par host que utilise pour crawler, la valeur de timeout d'une réponse, etc ... Comment configure-tu cela? Je parle de manière générale, dans les grid, quelle est la pratique habituelle? Chaque fois que je vais créer un nouveau job, je lui passe la configuration qui va bien? La configuration est centralisée sur un noeud en particulier? L'administrateur change la configuration, comment est propagée cette info? Ah oui au fait Jerome, j'espere que j'ai répondu à ta question, pk je ne suis meme pas sur d'avoir bien compris :p Cf ci dessus...;-) Jérôme -- http://motrech.free.fr/ http://www.frutch.org/ [Les parties de ce message comportant autre chose que du texte seul on été supprimées] - motrech - http://motrech.free.fr/ frutch - http://www.frutch.org/ - *Liens Yahoo! Groupes* * Pour consulter votre groupe en ligne, accédez à : http://fr.groups.yahoo.com/group/motrech/ * Pour vous désincrire de ce groupe, envoyez un mail à : [EMAIL PROTECTED] mailto:[EMAIL PROTECTED] * L'utilisation de Yahoo! Groupes est soumise à l'acceptation des conditions d'utilisation http://fr.docs.yahoo.com/info/utos.html. - motrech - http://motrech.free.fr/ frutch - http://www.frutch.org/ - Liens Yahoo! Groupes * Pour consulter votre groupe en ligne, accédez à : http://fr.groups.yahoo.com/group/motrech/ * Pour vous désincrire de ce groupe, envoyez un mail à : [EMAIL PROTECTED] * L'utilisation de Yahoo! Groupes est soumise à l'acceptation des : http://fr.docs.yahoo.com/info/utos.html