On Tue, Aug 12, 2003 at 00:57:43 +0200, Vincent Bernat wrote: > OoO En cette fin de matin�e radieuse du lundi 11 ao�t 2003, vers > 11:06, Nicolas Ledez <[EMAIL PROTECTED]> disait: > > > C'est bien ce que je disait, il faut extraire tout les mots et le > > mettres dans une struture de recherche rapide (arbre, hash, ...), leurs > > faire correspondre les ID des messages,... > > Donc pour 10Mo de mails, tes index vont faire 10-15 Mo > > J'indexe 500 Mo de mails avec swish++, la recherche est de l'ordre de > la seconde et l'index fait 17 Mo. Tu as des mails o� chaque mot est > distinct ?
Tu peux aussi rechercher des sous-mots, avec une recherche de l'ordre de la seconde? C'est important pour rechercher � la fois le singulier et le pluriel, ou l'ensemble des formes d'un verbe ou quand on a des mots compos�s, ou quand quelqu'un �crit "mettres" au lieu de "mettre" :), etc. �a ne pose pas de probl�me avec les mots accentu�s (la FAQ dit que swish++ ne marche pas bien pour les langues autres que l'anglais). -- Vincent Lef�vre <[EMAIL PROTECTED]> - Web: <http://www.vinc17.org/> - 100% validated (X)HTML - Acorn Risc PC, Yellow Pig 17, Championnat International des Jeux Math�matiques et Logiques, TETRHEX, etc. Work: CR INRIA - computer arithmetic / SPACES project at LORIA

