On Tue, Aug 12, 2003 at 00:57:43 +0200, Vincent Bernat wrote:
> OoO En cette fin de matin�e radieuse du lundi 11 ao�t 2003, vers
> 11:06, Nicolas Ledez <[EMAIL PROTECTED]> disait:
> 
> > C'est bien ce que je disait, il faut extraire tout les mots et le
> > mettres dans une struture de recherche rapide (arbre, hash, ...), leurs
> > faire correspondre les ID des messages,...
> > Donc pour 10Mo de mails, tes index vont faire 10-15 Mo
> 
> J'indexe 500 Mo de mails avec swish++, la recherche est de l'ordre de
> la seconde et l'index fait 17 Mo. Tu as des mails o� chaque mot est
> distinct ?

Tu peux aussi rechercher des sous-mots, avec une recherche de l'ordre
de la seconde? C'est important pour rechercher � la fois le singulier
et le pluriel, ou l'ensemble des formes d'un verbe ou quand on a des
mots compos�s, ou quand quelqu'un �crit "mettres" au lieu de "mettre"
:), etc.

�a ne pose pas de probl�me avec les mots accentu�s (la FAQ dit que
swish++ ne marche pas bien pour les langues autres que l'anglais).

-- 
Vincent Lef�vre <[EMAIL PROTECTED]> - Web: <http://www.vinc17.org/> - 100%
validated (X)HTML - Acorn Risc PC, Yellow Pig 17, Championnat International
des Jeux Math�matiques et Logiques, TETRHEX, etc.
Work: CR INRIA - computer arithmetic / SPACES project at LORIA

Répondre à