Bonsoir

Le thesaurus a changé de format et j'avais fait une moulinette de migration

Le nouveau format permet de mettre plus d'informations comme

- plusieurs significations pour un meme mot, chacune ayant son jeu de synonymes --> Necessite un reexamen complet et exhaustif du thesaurus

- indiquer un meaning et categorie grammaticale sur la première entrée de synonyme de chaque mot
Pour ceci, je me suis basé sur le travail en cours de Myriam Lechelt sur le correcteur grammatical :
Nous avons constitué un dictionnaire taggué libre contenant 350 000 entrées sur la base des fichiers de l'abu. Le dictionnaire taggué InDico contient pour chaque entrée une étiquette indiquant, entre autre, sa categorie grammaticale. J'ai donc croisé les entrées du thesaurus pour remplir l'information.


Sur les 36200 entrées du thesaurus, il n'y en a plus que 3200 non remplies, soit presque 90% de couverture. La majorité des mots indiquent désormais les categories grammaticales possibles qui lmui sont attachées.

Le thesaurus version2 est disponible à cette adresse
http://ooo.lab-project.net/~lgodard/thesaurus/

Pour ce qui est de InDico, je suis en train de mettre en place un projet pour une plateforme collaborative pour "l'entretien" de ce dictionnaire: ajouter un mot, corriger une entrée etc ....
Il servira de base au correcteur grammatical francais libre


Pour ceux que ca interresse, vous pouvez suivre l'avancé du correcteur grammatical francais sur le blog de Myriam Lechelt
http://blogs.nuxeo.com/sections/blogs/myriam_lechelt/


Pour le thesaurus, je suis à la recherche de testeurs sur plusieurs plateforme afin de la valider avant de le considerer comme 'acceptable' et le remonter au niveau de projet lingucomponent.

Bonne soirée à tous

Laurent

--
Laurent Godard <[EMAIL PROTECTED]> - Ingénierie OpenOffice.org
Indesko >> http://www.indesko.com
Nuxeo CPS >> http://www.nuxeo.com - http://www.cps-project.org
Livre "Programmation OpenOffice.org", Eyrolles 2004


--------------------------------------------------------------------- To unsubscribe, e-mail: [EMAIL PROTECTED] For additional commands, e-mail: [EMAIL PROTECTED]



Répondre à