Re: [sdx-users] affichage alphabétique d'un e liste de terme sur un champ

Pierrick Brihaye Wed, 22 Jun 2005 13:06:39 -0700

Re,

Frédéric Glorieux a écrit :

Mmmh... je suis en train de me bagarrer là-dessus avec lesdéveloppeurs d'eXist :-)) Ma religion est faite : pourquoi faireporter à du code qui se veut générique une politique d'indexation quine sert pas les objectifs de la politique de requête ?
Je ne sais pas si je suis avec ou contre toi,


T'as pas intérêt ;-))))

pour moi, un index doitcontenir "Architecture -- Bâtiment cultuel -- Église", c'est au code àrendre (ou ne pas rendre) le terme à ceux qui cherchent "église".

Je ne suis pas d'accord : on parle de l'index, la chose qui apporte dela performance *en dernier ressort* : si on négocie, on la perd ipso facto.

Autant je suis d'accord avec toi sur ce type d'analyse lors d'uneexpansion de requête, autant je pense que si l'on cherche à récolter cequ'il y a dans l'index, on doit aller vite.

Cela signifie aussi que "architecture -- bâtiment cultuel -- église"(sans majuscules) constitue un autre terme (qui en l'occurence pourraitfaire doublon).

Ceci peut être (plus ou moins facilement) résolu dans le cadre d'uneexpansion de requête... on gère les quelques termes de la requête avantd'attaquer les nombreux termes de l'index.

Attention, je ne sais pas ce que cela donne avec de l'arabe ou autreslangues pour laquelle toLowerCase() n'est pas précisément implémenté.
C'est implémenté ne serait-ce que parce que que c'est du Javastandard. Mais en arabe... c'est kif-kif :-)
Merci JAVA


Ou, plutôt, Unicode.

 > De plus, ne pas oublier que, pour les champs non
 > tokenisés, l'espace *peut* être significative :
 > "cul de sac" peut
 > représenter un seul token...
C'est le problème que peuvent rencontrer des applications enfonctionnement. J'ai implémenté l'usage des guillemets, mais cela casseles applis qui par exemple fonctionnait sur des choses comme
Architecture*
Architecture -- Bâtiment cultuel*

(pour par exemple présenter des thesauri hiérarchiques).

Il faudrait alors ajouter des guillemets quand il y a des espaces

Plus compliqué encore dans le cadre d'analyseurs renvoyant plusieurstokens sur la même position. Voir :


http://www.nongnu.org/aramorph/french/lucene.html ;-)
http://svn.apache.org/viewcvs.cgi/lucene/java/trunk/src/test/org/apache/lucene/search/TestPositionIncrement.java?rev=150585&view=markup

C'est une idée, mais, d'une façon plus générale, il faudrait offrirles mêmes possibilités que l'on a pour les requêtes (et, ou, sauf àpartir d'une "baseQuery").
A faible coût, on peut probablement implémenter
le "et" et le "non" de cette manière

+Architecture* -"*bâtiment cultuel*" +*roman*

Mmmmh... <sdx:term> va carrément dans l'IndexReader et, de là, il peutrenvoyer une TermDocs. A partir de là, on peut combiner (plus facile àécrire qu'à coder, je sais :-)

Attention tout de même de ne pas implémenter trop de choses, on setromperait a confondre liste de termes et base de documents.


Oui !

A+

p.b.


_______________________________________________
sdx-users mailing list
[email protected]
http://lists.nongnu.org/mailman/listinfo/sdx-users

Re: [sdx-users] affichage alphabétique d'un e liste de terme sur un champ

Répondre à