Ah, LSA... mais c'était surtout pour catégoriser automatiquement des documents; pour la désambiguïsation sémantique les procédés automatiques ne sont apparemment pas encore très opérationnels (les taux de succès ne dépasseraient pas 60-80%, selon la langue, le corpus et sa taille).
La traduction automatique a le même genre de problèmes à résoudre, et les experts n'attendent pas de progrès décisif avant... le prochain siècle.
60-80%, ce n'est pas si mal s'il on attends juste la diminution du bruit, mais il faut alors faire la même chose au moment de la requête ?
"feuille", vous voulez chercher "feuille de papier ou feuille d'arbre ?". Il vaudrait mieux quelque chose comme "feuille arbre" > "feuille arbre maronnier tilleul...", autrement dit le mécanisme déjà existant d'extension de requête contre thesaurus.
Un article de Jean Véronis faisait le point sur l'état de l'art: http://acl.ldc.upenn.edu/J/J98/J98-1001.pdf Écrit en 1998, ça reste un bon point de départ... Pour qui s'intéresse aux mots (et aux moteurs de recherche), ne pas manquer le blog du même: http://aixtal.blogspot.com/
-- Frédéric Glorieux (AJLSM, http://ajlsm.com) _______________________________________________ sdx-users mailing list sdx-users@nongnu.org http://lists.nongnu.org/mailman/listinfo/sdx-users