Ah, LSA... mais c'était surtout pour catégoriser automatiquement
des documents; pour la désambiguïsation sémantique les procédés
automatiques ne sont apparemment pas encore très opérationnels
(les taux de succès ne dépasseraient pas 60-80%, selon la langue,
le corpus et sa taille).

La traduction automatique a le même genre de problèmes à résoudre, et les experts n'attendent pas de progrès décisif avant... le prochain siècle.

60-80%, ce n'est pas si mal s'il on attends juste la diminution du bruit, mais il faut alors faire la même chose au moment de la requête ?

"feuille", vous voulez chercher "feuille de papier ou feuille d'arbre ?". Il vaudrait mieux quelque chose comme "feuille arbre" > "feuille arbre maronnier tilleul...", autrement dit le mécanisme déjà existant d'extension de requête contre thesaurus.

Un article de Jean Véronis faisait le point sur l'état de l'art:
        http://acl.ldc.upenn.edu/J/J98/J98-1001.pdf
Écrit en 1998, ça reste un bon point de départ...

Pour qui s'intéresse aux mots (et aux moteurs de recherche),
ne pas manquer le blog du même: http://aixtal.blogspot.com/


--
Frédéric Glorieux (AJLSM, http://ajlsm.com)


_______________________________________________
sdx-users mailing list
sdx-users@nongnu.org
http://lists.nongnu.org/mailman/listinfo/sdx-users

Répondre à