Re: [motrech] Plusieurs index sous un même Nu tch ?
Cher collègue, Ta question conviendrait mieux sur frutch, la mailing consacrée à nutch. Comme nutch est un programme, tu peux en ce qui concerne le crawl utiliser les memes fichiers de nutch pour lancer des processus différents. Tu utiliseras cependant des fichiers de configurations différents. Cela sera réalisé par un simple script bin/sh. Christophe Noël. Robert Viseur a écrit : Bonjour, Je me demandais s'il était possible d'utiliser 1 installation de Nutch pour créer plusieurs index distincts et les interroger séparément ? Si oui, quelle est la manière de procéder la plus appropriée ? Si non, comment peut-on faire pour arriver à un résultat similaire ? Faudrait-il alors, par exemple, installer 1 Nutch par index sur la même machine ? Merci pour vos réponses. Cordialement, Robert VISEUR. - motrech - http://motrech.free.fr/ frutch - http://www.frutch.org/ - Liens Yahoo! Groupes * Pour consulter votre groupe en ligne, accédez à : http://fr.groups.yahoo.com/group/motrech/ * Pour vous désincrire de ce groupe, envoyez un mail à : [EMAIL PROTECTED] * L'utilisation de Yahoo! Groupes est soumise à l'acceptation des : http://fr.docs.yahoo.com/info/utos.html
Re: [motrech] Journée moteur de recherche organisée par L'APIL pendant le Forum de la GEIDE
Et à ce sujet, il est important de parler des moteurs de recherche dédiés réalisé par exemple, par le CETIC. ;) Christophe Noël CETIC Alain Couillault a écrit : Bonjour à tous, Un peu de pub ! L'APIL et l'APROGED organisent une journée de formation sur les moteurs de recherche dans le cadre du prochain forum de la GEIDE. Cette journée se veut un panorama complet et précis des moteurs de recherche d'entreprise. Vous pourrez comprendre les différentes technologies utilisées, avoir une vue d'ensemble des fonctionnalités actuelles. Cette journée propose les clés permettant le choix d'une solution, la vision de sa mise en oeuvre et les outils permettant son évolution. Une occasion inédite de se mettre à l'état de l'art des moteurs de recherche. Vous trouverez le programme et le bulletin d'inscription sur le site de l'Association (www.apil.asso.fr http://www.apil.asso.fr/ ) APILement votre Alain Couillault PS: désolé pour le multipostage et l'éventuel sentiment de déjà vu - motrech - http://motrech.free.fr/ frutch - http://www.frutch.org/ - Liens Yahoo! Groupes * Pour consulter votre groupe en ligne, accédez à : http://fr.groups.yahoo.com/group/motrech/ * Pour vous désincrire de ce groupe, envoyez un mail à : [EMAIL PROTECTED] * L'utilisation de Yahoo! Groupes est soumise à l'acceptation des : http://fr.docs.yahoo.com/info/utos.html
[motrech] Présentation Moteurs de Recherche su r Grille - Conférence
Très chers confrères :) Ma (très) longue absence traduit le bonheur de vivre depuis quelques temps avec deux petits bébés merveilleux (Alexandre et Maxime). J'espère que depuis lors, vos projets ont pu aboutir ou évoluer... Pour ma part, je présenterai un papier à la 7ème Journées Francophones de l'Extraction et de la Gestion des Connaissances (EGC 2007 : http://www.info.fundp.ac.be/egc2007/ , 23-26 janvier, Namur(Belgique) ) La présentation est intitulée : *Pertinence des moteurs de recherche web à aspiration indexation distribuées sur infrastructure GRID* Le papier fait notamment référence à l'article de Jérome Charron Le Pire Tout Pire http://motrech.blogspot.com/2006/01/le-pire-tout-pire.html et traduit une année de recherche sur le sujet avec la collaboration de l'université de Liège (Belgique). Le document est en cours de rédaction (je l'écris d'abord en anglais, car je dois également le présenter dans d'autres conférences). Merci de commenter l'affirmation suivante : It is very important to note that we consider (for this document) : * document parsing (ie : html to text) as being part of the crawling process * document analysis (language matching, document ranking, extra analysis) as being part of the indexing process Certains d'entre vous désignent-ils l'analyse de document comme une partie de la phase de parsing ? Merci d'avance. Christophe Noël Systèmes distribués CETIC - Charleroi (Belgique) - motrech - http://motrech.free.fr/ frutch - http://www.frutch.org/ - Liens Yahoo! Groupes * Pour consulter votre groupe en ligne, accédez à : http://fr.groups.yahoo.com/group/motrech/ * Pour vous désincrire de ce groupe, envoyez un mail à : [EMAIL PROTECTED] * L'utilisation de Yahoo! Groupes est soumise à l'acceptation des : http://fr.docs.yahoo.com/info/utos.html
Re: [motrech] Commentaires sur Le pire tout Pire
D'après ce que j'ai lu de la structure de map-reduce, il semblerait que cela ne résiste pas aux facteurs d'échelle aussi conséquent que pour un grid... Mais je dirais que pour des raisons scientifiques, le projet ne pouvait betement reprendre Nutch tel quel, et donc je ne me suis pas attardé (pour l'instant) sur ce module. Je crois cependant que mes premiers essais ne se feront pas avant fin de l'année 06. A la question plus générale (et liée au billet sur le P2P) : Comment utiliser un système Grid pour distribuer crawling/indexing ? Pour un grid, il ne faut justement pas penser moteur de recherche. Un moteur n'est rien d'autres que du code. Un code permet d'effectuer des jobs. Des configurations (valeur du timeout, nombre de threads par host) peuvent à la liberté de l'utilisateur du job : - soit etre calculée (dans le code, on insère : si bande passante = x alors threads per host= Y, et on génère le fichier nutch-default en local sur le noeud) - soit etre passée en paramètre (on envoie avec les urls à crawler, le fichier nutch-default à utiliser) Il n'y a donc pas de pratique habituelle. La seule chose à retenir est que le grid ne fait / propose rien ... Tout est à la charge du programmeur. Tous les scénarios sont possibles... Pour la propogagation, elle est possible théoriquement. Mais en pratique, on utilisera rarement un mécanisme de propagation : si après LANCé le job(n) qui crawl 100.000 urls, je désire changer ma configuration (nutch-default.xml par exemple), alors je soumets la nouvelle configuration (le nouveau code) au grid. Le job(n) va continuer avec la configuration 1 Les jobs suivant utiliseront la configuration 2. Ces informations sont assez caricaturées, mais ne s'écartent que très peu de la réalité. Etant donné la complexité des technologies Grid, j'ai du parfois simplifier certaines réponses/concepts. Christophe Noel CETIC. Donc pour plus de questions n'hésitez pas ? Ma question est simple en fait: Tu as une configuration des processus qui vont tourner sur ta grille de calcul: Dans le cas d'un moteur de recherche, on pourrait imaginer : le nombre de threads par host que utilise pour crawler, la valeur de timeout d'une réponse, etc ... Comment configure-tu cela? Je parle de manière générale, dans les grid, quelle est la pratique habituelle? Chaque fois que je vais créer un nouveau job, je lui passe la configuration qui va bien? La configuration est centralisée sur un noeud en particulier? L'administrateur change la configuration, comment est propagée cette info? Ah oui au fait Jerome, j'espere que j'ai répondu à ta question, pk je ne suis meme pas sur d'avoir bien compris :p Cf ci dessus...;-) Jérôme -- http://motrech.free.fr/ http://www.frutch.org/ [Les parties de ce message comportant autre chose que du texte seul on été supprimées] - motrech - http://motrech.free.fr/ frutch - http://www.frutch.org/ - *Liens Yahoo! Groupes* * Pour consulter votre groupe en ligne, accédez à : http://fr.groups.yahoo.com/group/motrech/ * Pour vous désincrire de ce groupe, envoyez un mail à : [EMAIL PROTECTED] mailto:[EMAIL PROTECTED] * L'utilisation de Yahoo! Groupes est soumise à l'acceptation des conditions d'utilisation http://fr.docs.yahoo.com/info/utos.html. - motrech - http://motrech.free.fr/ frutch - http://www.frutch.org/ - Liens Yahoo! Groupes * Pour consulter votre groupe en ligne, accédez à : http://fr.groups.yahoo.com/group/motrech/ * Pour vous désincrire de ce groupe, envoyez un mail à : [EMAIL PROTECTED] * L'utilisation de Yahoo! Groupes est soumise à l'acceptation des : http://fr.docs.yahoo.com/info/utos.html
Re: RE : [motrech] Actualités
Toutes les news sur la fraude du clic : http://news.google.be/news?hl=frned=frq=netbooster :) http://www.01net.com/editorial/275844/marche/la-publicite-en-ligne-menacee-de-fraude-au-clic/ Message d'origine De: motrech@yahoogroupes.fr de la part de Loup Date: mer. 08/06/2005 18:26 À: motrech@yahoogroupes.fr Objet : Re: [motrech] Actualités Hello Christophe! est-ce que tu aurais plus d'infos concernant la fraude des clics?? @+ --- Loup !^.^! --- -- motrech [home] - http://motrech.free.fr/ motrech [liste] - http://fr.groups.yahoo.com/group/motrech motrech [blog] - http://motrech.blogspot.com/ frutch [home] - http://frutch.free.fr/ frutch [wiki] - http://frutch.free.fr/wikini frutch [liste] - http://fr.groups.yahoo.com/group/frutch -- Liens Yahoo! Groupes * Pour consulter votre groupe en ligne, accédez à : http://fr.groups.yahoo.com/group/motrech/ * Pour vous désincrire de ce groupe, envoyez un mail à : [EMAIL PROTECTED] * L'utilisation de Yahoo! Groupes est soumise à l'acceptation des : http://fr.docs.yahoo.com/info/utos.html