Re: [motrech] Plusieurs index sous un même Nu tch ?

2006-10-18 Par sujet Christophe Noël
Cher collègue,

Ta question conviendrait mieux sur frutch, la mailing consacrée à nutch.

Comme nutch est un programme, tu peux en ce qui concerne le crawl 
utiliser les memes fichiers de nutch pour lancer des processus 
différents. Tu utiliseras cependant des fichiers de configurations 
différents. Cela sera réalisé par un simple script bin/sh.

Christophe Noël.

Robert Viseur a écrit :
 Bonjour,

 Je me demandais s'il était possible d'utiliser 1 installation de Nutch 
 pour créer plusieurs index distincts et les interroger séparément ?

 Si oui, quelle est la manière de procéder la plus appropriée ?

 Si non, comment peut-on faire pour arriver à un résultat similaire ? 
 Faudrait-il alors, par exemple, installer 1 Nutch par index sur la 
 même machine ?

 Merci pour vos réponses.

 Cordialement,
 Robert VISEUR.
  



-
motrech - http://motrech.free.fr/
frutch  - http://www.frutch.org/
- 
Liens Yahoo! Groupes

* Pour consulter votre groupe en ligne, accédez à :
http://fr.groups.yahoo.com/group/motrech/

* Pour vous désincrire de ce groupe, envoyez un mail à :
[EMAIL PROTECTED]

* L'utilisation de Yahoo! Groupes est soumise à l'acceptation des :
http://fr.docs.yahoo.com/info/utos.html
 



Re: [motrech] Journée moteur de recherche organisée par L'APIL pendant le Forum de la GEIDE

2006-09-16 Par sujet Christophe Noël
Et à ce sujet, il est important de parler des moteurs de recherche 
dédiés réalisé par exemple, par le CETIC. ;)

Christophe Noël
CETIC
Alain Couillault a écrit :

 Bonjour à tous,

 Un peu de pub !


 L'APIL et l'APROGED organisent une journée de formation sur les moteurs de
 recherche dans le cadre du prochain forum de la GEIDE.

 Cette journée se veut un panorama complet et précis des moteurs de 
 recherche
 d'entreprise. Vous pourrez comprendre les différentes technologies
 utilisées, avoir une vue d'ensemble des fonctionnalités actuelles. Cette
 journée propose les clés permettant le choix d'une solution, la vision 
 de sa
 mise en oeuvre et les outils permettant son évolution.  Une occasion 
 inédite
 de se mettre à l'état de l'art des moteurs de recherche.

 Vous trouverez le programme et le bulletin d'inscription sur le site de
 l'Association (www.apil.asso.fr http://www.apil.asso.fr/ )

 APILement votre

 Alain Couillault

 PS: désolé pour le multipostage et l'éventuel sentiment de déjà vu




-
motrech - http://motrech.free.fr/
frutch  - http://www.frutch.org/
- 
Liens Yahoo! Groupes

* Pour consulter votre groupe en ligne, accédez à :
http://fr.groups.yahoo.com/group/motrech/

* Pour vous désincrire de ce groupe, envoyez un mail à :
[EMAIL PROTECTED]

* L'utilisation de Yahoo! Groupes est soumise à l'acceptation des :
http://fr.docs.yahoo.com/info/utos.html
 





[motrech] Présentation Moteurs de Recherche su r Grille - Conférence

2006-08-30 Par sujet Christophe Noël
Très chers confrères :)

Ma (très) longue absence traduit le bonheur de vivre depuis quelques 
temps avec deux petits bébés merveilleux (Alexandre et Maxime). J'espère 
que depuis lors, vos projets ont pu aboutir ou évoluer...

Pour ma part, je présenterai un papier à la 7ème Journées Francophones 
de l'Extraction et de la Gestion des Connaissances (EGC 2007 : 
http://www.info.fundp.ac.be/egc2007/ , 23-26 janvier, Namur(Belgique) )

La présentation est intitulée : *Pertinence des moteurs de recherche 
web à aspiration indexation distribuées sur infrastructure GRID*
Le papier fait notamment référence à l'article de Jérome Charron Le 
Pire Tout Pire 
http://motrech.blogspot.com/2006/01/le-pire-tout-pire.html et traduit 
une année de recherche sur le sujet avec la collaboration de 
l'université de Liège (Belgique).

Le document est en cours de rédaction (je l'écris d'abord en anglais, 
car je dois également le présenter dans d'autres conférences).

Merci de commenter l'affirmation suivante :

It is very important to note that we consider (for this document) :

* document parsing (ie : html to text) as being part of the crawling
  process
* document analysis (language matching, document ranking, extra
  analysis) as being part of the indexing process

Certains d'entre vous désignent-ils l'analyse de document comme une 
partie de la phase de parsing ?

Merci d'avance.

Christophe Noël
Systèmes distribués
CETIC - Charleroi (Belgique)




-
motrech - http://motrech.free.fr/
frutch  - http://www.frutch.org/
- 
Liens Yahoo! Groupes

* Pour consulter votre groupe en ligne, accédez à :
http://fr.groups.yahoo.com/group/motrech/

* Pour vous désincrire de ce groupe, envoyez un mail à :
[EMAIL PROTECTED]

* L'utilisation de Yahoo! Groupes est soumise à l'acceptation des :
http://fr.docs.yahoo.com/info/utos.html
 





Re: [motrech] Commentaires sur Le pire tout Pire

2006-01-19 Par sujet Christophe Noël
D'après ce que j'ai lu de la structure de map-reduce, il semblerait que 
cela ne résiste pas aux facteurs d'échelle aussi conséquent que pour un 
grid... Mais je dirais que pour des raisons scientifiques, le projet ne 
pouvait betement reprendre Nutch tel quel, et donc je ne me suis pas 
attardé (pour l'instant) sur ce module. Je crois cependant que mes 
premiers essais ne se feront pas avant fin de l'année 06.

  A la question plus générale (et liée au billet sur le P2P) : Comment
  utiliser un système Grid pour distribuer crawling/indexing  ?

Pour un grid, il ne faut justement pas penser moteur de recherche. Un 
moteur n'est rien d'autres que du code. Un code permet d'effectuer des jobs.
Des configurations (valeur du timeout, nombre de threads par host) 
peuvent à la liberté de l'utilisateur du job :
- soit etre calculée (dans le code, on insère : si bande passante = x 
alors threads per host= Y, et on génère le fichier nutch-default en 
local sur le noeud)
- soit etre passée en paramètre (on envoie avec les urls à crawler, le 
fichier nutch-default à utiliser)
Il n'y a donc pas de pratique habituelle. La seule chose à retenir est 
que le grid ne fait / propose rien ... Tout est à la charge du 
programmeur. Tous les scénarios sont possibles...

Pour la propogagation, elle est possible théoriquement. Mais en 
pratique, on utilisera rarement un mécanisme de propagation :
si après LANCé le job(n) qui crawl 100.000 urls, je désire changer ma 
configuration (nutch-default.xml par exemple), alors je soumets la 
nouvelle configuration (le nouveau code) au grid.
Le job(n) va continuer avec la configuration 1
Les jobs suivant utiliseront la configuration 2.

Ces informations sont assez caricaturées, mais ne s'écartent que très 
peu de la réalité. Etant donné la complexité des technologies Grid, j'ai 
du parfois simplifier certaines réponses/concepts.

Christophe Noel
CETIC.

  Donc pour plus de questions n'hésitez pas ?

 Ma question est simple en fait:
 Tu as une configuration des processus qui vont tourner sur ta grille de
 calcul: Dans le cas d'un moteur de recherche, on pourrait imaginer : le
 nombre de threads par host que utilise pour crawler, la valeur de timeout
 d'une réponse, etc ...
 Comment configure-tu cela? Je parle de manière générale, dans les grid,
 quelle est la pratique habituelle?
 Chaque fois que je vais créer un nouveau job, je lui passe la 
 configuration
 qui va bien?
 La configuration est centralisée sur un noeud en particulier?
 L'administrateur change la configuration, comment est propagée cette info?

 Ah oui au fait Jerome, j'espere que j'ai répondu à ta question, pk je ne
  suis meme pas sur d'avoir bien compris :p

 Cf ci dessus...;-)

 Jérôme

 --
 http://motrech.free.fr/
 http://www.frutch.org/


 [Les parties de ce message comportant autre chose que du texte seul on 
 été supprimées]



 -
 motrech - http://motrech.free.fr/
 frutch  - http://www.frutch.org/
 -


 
 *Liens Yahoo! Groupes*

 * Pour consulter votre groupe en ligne, accédez à :
   http://fr.groups.yahoo.com/group/motrech/

 * Pour vous désincrire de ce groupe, envoyez un mail à :
   [EMAIL PROTECTED]
   mailto:[EMAIL PROTECTED]

 * L'utilisation de Yahoo! Groupes est soumise à l'acceptation des
   conditions d'utilisation http://fr.docs.yahoo.com/info/utos.html.





-
motrech - http://motrech.free.fr/
frutch  - http://www.frutch.org/
- 
Liens Yahoo! Groupes

* Pour consulter votre groupe en ligne, accédez à :
http://fr.groups.yahoo.com/group/motrech/

* Pour vous désincrire de ce groupe, envoyez un mail à :
[EMAIL PROTECTED]

* L'utilisation de Yahoo! Groupes est soumise à l'acceptation des :
http://fr.docs.yahoo.com/info/utos.html
 




Re: RE : [motrech] Actualités

2005-06-08 Par sujet Christophe Noël
Toutes les news sur la fraude du clic :
http://news.google.be/news?hl=frned=frq=netbooster

:)

 http://www.01net.com/editorial/275844/marche/la-publicite-en-ligne-menacee-de-fraude-au-clic/

  Message d'origine
 De: motrech@yahoogroupes.fr de la part de Loup
 Date: mer. 08/06/2005 18:26
 À: motrech@yahoogroupes.fr
 Objet : Re: [motrech] Actualités

 Hello Christophe!
 est-ce que tu aurais plus d'infos concernant la fraude des clics??
 @+
 ---
 Loup !^.^!
 ---




--
motrech [home]  - http://motrech.free.fr/
motrech [liste] - http://fr.groups.yahoo.com/group/motrech
motrech [blog]  - http://motrech.blogspot.com/
frutch  [home]  - http://frutch.free.fr/
frutch  [wiki]  - http://frutch.free.fr/wikini
frutch  [liste] - http://fr.groups.yahoo.com/group/frutch
-- 
Liens Yahoo! Groupes

* Pour consulter votre groupe en ligne, accédez à :
http://fr.groups.yahoo.com/group/motrech/

* Pour vous désincrire de ce groupe, envoyez un mail à :
[EMAIL PROTECTED]

* L'utilisation de Yahoo! Groupes est soumise à l'acceptation des :
http://fr.docs.yahoo.com/info/utos.html