Bonjour à tous,
Ainsi que me l'a demandé Sophie, voici une petite présentation du
nouveau site Dicollecte que j'ai construit ces deux derniers mois.
Au dernier moment imaginable, j'ai pu boucler une version afin de la
proposer au concours d'innovation de SUN:
http://development.openoffice.org/community_innovation_program.html
Le principe initial, collecter des mots de la part des utilisateurs, n'a
pas changé, mais j'ai tâché d'améliorer l'ensemble de toutes les
manières possibles.
La raison initiale de la reconstruction du site était son adaptation au
nouveau dictionnaire français sur lequel je travaille depuis plus de six
mois. Comme ce nouveau dico n'est pas encore terminé et que ce n'est pas
le sujet de ce mail, je passe sur ce point.
Par rapport à l'ancien site (très rudimentaire et d'une conception
grossière), il n'y a presque que de nouvelles fonctionnalités.
Voici les principales:
# 1. Le site est internationalisable.
Il suffit de traduire une série de fichiers, de créer de nouvelles
tables dans la base de données et de procéder à quelques réglages pour
adapter le site aux dictionnaires étrangers. En guise de démonstration,
j'ai uploadé les dictionnaires anglais et allemand.
# 2. Modification du thesaurus.
Il est possible d'éditer les entrées du thésaurus directement, et pour
chaque entrée d'ajouter aisément des catégories de significations ou
d'en soustraire, dans selon l'ordre qu'on veut.
Pour la démonstration de cette fonctionnalité, mieux vaut aller voir
dans le thesaurus anglais qui est bien plus complet et mieux organisé
que le thesaurus français. Ce dernier ne propose qu'une seule catégorie
de synonymes où tout est mélangé pêle-mêle.
Contrairement aux dictionnaires orthographiques, où les modifications
passent par un procédé de validation des propositions, l'édition du
thesaurus est directe (car il eût été trop complexe de faire autrement à
mon humble avis). Cependant, chaque modification est enregistrée dans
des fichiers de suivi.
Chaque édition d'une entrée bloque l'édition de cette entrée par
quiconque d'autre durant un temps déterminé.
# 3. Edition des pages personnelles à chaque projet.
Chaque administrateur de projet peut éditer à sa guise cinq pages pour y
diffuser les informations qu'il désire:
- la page Home pour les dernières nouvelles
- la page Documentation pour y expliquer ce qu'il désire au sujet des
dictionnaires, des affixes, etc.
- la page FAQ
- la page Download pour y proposer les dictionnaires résultants.
- la page Old news ou archives pour vider la page Home des anciennes
nouvelles.
Cette édition est un peu brute, car le bouton Editer cette page que
seuls les admins de projet peuvent voir fait basculer la page en édition
HTML directe (seul le contenu des pages est accessible, bien sûr).
# 4. Personnalisation des projets.
Outre l'édition de certaines pages du site par les admins, il est
possible de personnaliser les projets. Je n'ai pas eu le temps d'en
faire autant que je le souhaitais sur ce point, mais c'est mieux que rien.
a. Création de sous-dictionnaires orthographiques.
Chaque projet peut définir un nombre important (c'est codé
sur un caractère en UTF-8) de sous-dictionnaires auxquels
il est possible d'assigner les entrées du dico.
Ce qui permettra de créer des dictionnaires spécialisés.
b. Qui peut éditer le thésaurus.
Tous les inscrits? ou seulement les administrateurs et les
contrôleurs des dictionnaires? C'est au choix de chaque
projet.
c. Temps de blocage des entrées du thésaurus quand on commence
une édition.
d. Personnalisation des liens vers les ressources linguistiques
externes.
Cette personnalisation se fait toutefois uniquement par l'écriture des
fichiers à la création du projet. Rien n'est encore prévu pour y accéder
depuis le site lui-même. Ensuite, il faudra demander à l'administrateur
du site (moi, pour l'instant) d'éditer les fichiers de projet pour
changer ces réglages spécifiques.
# 5. Déclinaison des lemmes et analyse morphologique des formes fléchies.
Si les entrées sont grammaticalement étiquetées ainsi que les règles
d'affixation de Hunspell, le site peut afficher la morphologie des
formes fléchies.
Exemple:
http://dicollecte.free.fr/entry.php?prj=frid=122977
http://dicollecte.free.fr/entry.php?prj=frid=72153
Si vous constatez des erreurs, elles ne sont pas imputables au site mais
à l'étiquetage du dictionnaire qui est toujours en bêta.
Pour l'instant, seul le dictionnaire français bénéficie de cet avantage
puisque c'est le seul, à ma connaissance, dont 82% des entrées sont
grammaticalement étiquetées (par mes soins, vous savez donc qui blamer
en cas d'erreur) ainsi que la totalité des règles d'affixation.
Cet affichage de la morphologie des mots n'est pas hyper-importante en
soi, mais permet de vérifier aisément si un drapeau engendre des formes
erronées.