Re: [motrech] Commentaires sur Le pire tout Pire

2006-01-19 Par sujet Christophe Noel

 La conclusion de ma présentation est la suivante :
  - Un grid fournit principalement des ressources calcul
  - Actuellement les documents webs sont analysés, parsés, traités le plus
  rapidemment possible

 Mais le goulot d'étranglement d'un moteur de recherche est bien souvent la
 bande passante, plus que la puissance de calcul.

C'est ce qu'on dit souvent, mais j'ai la vilaine impression que le temps 
CPU coute bcp plus d'argent que la bande passante et que le doublement 
de bande passante engendrerait un doublement en besoin matériel pour le 
traitement de l'indexation.
En écrivant cela, j'ai toute conscience que ce n'est pas très sérieux 
d'avancer ce genre de chose en se fiant à sa simple intuition, mais j'ai 
l'impresssion d'avoir déjà lu ce genre de point de vue à l'égard de la 
bande passante. Il faudrait que je retrouve ces articles.

 - appliquer des traitements d'analyses précis et nombreux (plutot que
  par exemple une approximation de la langue du document)

 Je suis curieux... Je ne connais actuellement pas d'autres moyens
 d'identifier la langue que celles proposées aujourd'hui par exemple dans
 Nutch: Utilisation des méta-données + analyse statistique du contenu.

Si je ne me trompe pas, pour identifier la langue actuellement :
- utilisation d'un algorithme
- utilisation d'un paramètre de précision - selon la valeur de ce 
paramètre, la précision grandit parallèlement au temps d'exécution.
Me trompe-je ?


 J'espere que le débat sera bien là et constructif :)

 Personnellement, je suis impatient d'en lire plus sur le sujet!!!
 (PS: As-tu jeté un coup d'oeil sur le framework mapred de Nutch? Qu'en
 penses-tu?)

Non, vraiment pas le temps :) Mais tout commentaire m'intéresse sur le 
sujet ! ;)

 A+

 Jérôme

 --
 http://motrech.free.fr/
 http://www.frutch.org/


 [Les parties de ce message comportant autre chose que du texte seul on 
 été supprimées]



 -
 motrech - http://motrech.free.fr/
 frutch  - http://www.frutch.org/
 -


 
 *Liens Yahoo! Groupes*

 * Pour consulter votre groupe en ligne, accédez à :
   http://fr.groups.yahoo.com/group/motrech/

 * Pour vous désincrire de ce groupe, envoyez un mail à :
   [EMAIL PROTECTED]
   mailto:[EMAIL PROTECTED]

 * L'utilisation de Yahoo! Groupes est soumise à l'acceptation des
   conditions d'utilisation http://fr.docs.yahoo.com/info/utos.html.





-
motrech - http://motrech.free.fr/
frutch  - http://www.frutch.org/
- 
Liens Yahoo! Groupes

* Pour consulter votre groupe en ligne, accédez à :
http://fr.groups.yahoo.com/group/motrech/

* Pour vous désincrire de ce groupe, envoyez un mail à :
[EMAIL PROTECTED]

* L'utilisation de Yahoo! Groupes est soumise à l'acceptation des :
http://fr.docs.yahoo.com/info/utos.html
 




Re: [motrech] Commentaires sur Le pire tout Pire

2006-01-19 Par sujet Jean-Luc Delatre
On Thu, 19 Jan 2006 09:58:24 +0100
Christophe Noel [EMAIL PROTECTED] wrote:

 Si je ne me trompe pas, pour identifier la langue actuellement :
 - utilisation d'un algorithme
 - utilisation d'un paramètre de précision - selon la valeur de ce 
 paramètre, la précision grandit parallèlement au temps d'exécution.
 Me trompe-je ?

Non, mais c'est plutôt vague (content free...)
Il suffit d'utiliser l'algorithme que la NSA utilise depuis 10 ans, qui 
fonctionne quelque soit la langue et l'encodage des caractères et qui 
identifie, et la langue et la thématique générale du texte.
Malheureusement pas la différence entre we are watching for bomb making et 
we are progressing on bomb making :-P

http://citeseer.ist.psu.edu/context/152504/0

Le PDF n'est pas online mais en cherchant bien on le trouve!

JLD


-
motrech - http://motrech.free.fr/
frutch  - http://www.frutch.org/
- 
Liens Yahoo! Groupes

* Pour consulter votre groupe en ligne, accédez à :
http://fr.groups.yahoo.com/group/motrech/

* Pour vous désincrire de ce groupe, envoyez un mail à :
[EMAIL PROTECTED]

* L'utilisation de Yahoo! Groupes est soumise à l'acceptation des :
http://fr.docs.yahoo.com/info/utos.html
 





Re: [motrech] Commentaires sur Le pire tout Pire

2006-01-19 Par sujet Christophe Noël
D'après ce que j'ai lu de la structure de map-reduce, il semblerait que 
cela ne résiste pas aux facteurs d'échelle aussi conséquent que pour un 
grid... Mais je dirais que pour des raisons scientifiques, le projet ne 
pouvait betement reprendre Nutch tel quel, et donc je ne me suis pas 
attardé (pour l'instant) sur ce module. Je crois cependant que mes 
premiers essais ne se feront pas avant fin de l'année 06.

  A la question plus générale (et liée au billet sur le P2P) : Comment
  utiliser un système Grid pour distribuer crawling/indexing  ?

Pour un grid, il ne faut justement pas penser moteur de recherche. Un 
moteur n'est rien d'autres que du code. Un code permet d'effectuer des jobs.
Des configurations (valeur du timeout, nombre de threads par host) 
peuvent à la liberté de l'utilisateur du job :
- soit etre calculée (dans le code, on insère : si bande passante = x 
alors threads per host= Y, et on génère le fichier nutch-default en 
local sur le noeud)
- soit etre passée en paramètre (on envoie avec les urls à crawler, le 
fichier nutch-default à utiliser)
Il n'y a donc pas de pratique habituelle. La seule chose à retenir est 
que le grid ne fait / propose rien ... Tout est à la charge du 
programmeur. Tous les scénarios sont possibles...

Pour la propogagation, elle est possible théoriquement. Mais en 
pratique, on utilisera rarement un mécanisme de propagation :
si après LANCé le job(n) qui crawl 100.000 urls, je désire changer ma 
configuration (nutch-default.xml par exemple), alors je soumets la 
nouvelle configuration (le nouveau code) au grid.
Le job(n) va continuer avec la configuration 1
Les jobs suivant utiliseront la configuration 2.

Ces informations sont assez caricaturées, mais ne s'écartent que très 
peu de la réalité. Etant donné la complexité des technologies Grid, j'ai 
du parfois simplifier certaines réponses/concepts.

Christophe Noel
CETIC.

  Donc pour plus de questions n'hésitez pas ?

 Ma question est simple en fait:
 Tu as une configuration des processus qui vont tourner sur ta grille de
 calcul: Dans le cas d'un moteur de recherche, on pourrait imaginer : le
 nombre de threads par host que utilise pour crawler, la valeur de timeout
 d'une réponse, etc ...
 Comment configure-tu cela? Je parle de manière générale, dans les grid,
 quelle est la pratique habituelle?
 Chaque fois que je vais créer un nouveau job, je lui passe la 
 configuration
 qui va bien?
 La configuration est centralisée sur un noeud en particulier?
 L'administrateur change la configuration, comment est propagée cette info?

 Ah oui au fait Jerome, j'espere que j'ai répondu à ta question, pk je ne
  suis meme pas sur d'avoir bien compris :p

 Cf ci dessus...;-)

 Jérôme

 --
 http://motrech.free.fr/
 http://www.frutch.org/


 [Les parties de ce message comportant autre chose que du texte seul on 
 été supprimées]



 -
 motrech - http://motrech.free.fr/
 frutch  - http://www.frutch.org/
 -


 
 *Liens Yahoo! Groupes*

 * Pour consulter votre groupe en ligne, accédez à :
   http://fr.groups.yahoo.com/group/motrech/

 * Pour vous désincrire de ce groupe, envoyez un mail à :
   [EMAIL PROTECTED]
   mailto:[EMAIL PROTECTED]

 * L'utilisation de Yahoo! Groupes est soumise à l'acceptation des
   conditions d'utilisation http://fr.docs.yahoo.com/info/utos.html.





-
motrech - http://motrech.free.fr/
frutch  - http://www.frutch.org/
- 
Liens Yahoo! Groupes

* Pour consulter votre groupe en ligne, accédez à :
http://fr.groups.yahoo.com/group/motrech/

* Pour vous désincrire de ce groupe, envoyez un mail à :
[EMAIL PROTECTED]

* L'utilisation de Yahoo! Groupes est soumise à l'acceptation des :
http://fr.docs.yahoo.com/info/utos.html