Salut,
On voudrait favoriser les documents récents d'une
collection documentaire, lors de la recherche, sans
nécessairement trier par date (en particulier à
cause du coût du tri).
Une approche serait de calculer un coefficient de
boost du document en fonction de sa proximité avec
la date du jour (mais alors il faut réindexer tous
les jours) ou en fonction de sa proximité avec une
date future.
Il faut réindexer souvent, effectivement. Et c'est pas certain que ça
retourne dans l'ordre souhaité.
Est-ce que quelqu'un a déjà essayé ce genre d'approche,
et est-ce que c'est efficace?
Sais pas. Par contre, il peut y avoir une autre approche, par
catégorisation des résultats.
Tu laisses tes résultats triés dans l'ordre que tu souhaites. Tu crées
un champ "journée de modification", qui contient les journées (pas
l'heure car pas très intéressant pour cela), mais d'une manière que
l'ordre alphabétique soit l'ordre chronologique inverse.
Pour faire cela, il y a différentes approches, je pense par exemple à
soustraire le nombre de jours entre l'an 10000 (par exemple) et
aujourd'hui, ce nombre va décroître, et le stocker sous une forme
normalisée, par exemple "0002234".
Dans tes résultats, tu présentes la liste des valeurs de ce champ,
filtrée par ta requête.
<sdx:terms bqid="{l'identifiant de ta requête}"/>
Ca va te donner une liste de termes avec le nombre de documents associés
dans la réponse, et uniquement les termes qui auront (au moins) une
réponse. Cela va te permettre d'offrir une interface du genre:
Voir uniquement les documents publiés récemment
24 juillet (34 documents)
21 juillet (3 documents)
Et ainsi de suite.
Personnellement, pour de grands corpus et lorsqu'il y a beaucoup de
résultats, je trouve que la catégorisation de ces résultats est souvent
plus utile.
Martin Sévigny
_______________________________________________
sdx-users mailing list
[email protected]
http://lists.nongnu.org/mailman/listinfo/sdx-users