> Date: Thu, 6 Feb 2020 06:29:33 +0300
> From: Hèctor Alòs i Font <hectora...@gmail.com>
> To: "[apertium-stuff]" <apertium-stuff@lists.sourceforge.net>
> Reply-To: apertium-stuff@lists.sourceforge.net
> Subject: Re: [Apertium-stuff] Arpitan
> Pièce(s) jointes(s) probable(s)>

> Merci, Bernard. En fait je ne pensais pas spécialement à toi. J'ai écrit en
> français parce que si quelqu'un a travaillé sur l'arpitan, sans doute
> il/elle sait le français aussi.
>
> (...............)
>
> En fait, puisque nous touchons aussi au français, selon ce que je vois des
> textes de test pour le français-catalan, la "nouvelle" norme orthographique
> du français parait un peu plus utilisée qu'auparavant. J'ai trouvé assez de
> mots qui n'étaient pas reconnus à cause d'un circonflexe ou un trait
> d'union qui manquait. Donc peut-être faudra-t-il songer à mettre en place
> sur le dictionnaire morphologique français d'Apertium des étiquettes pour
> distinguer la norme "classique" de la nouvelle (qui, quand même, parait
> être beaucoup moins utilisée que la première). C'est du travail, mais je
> l'ai fait l'été dernier pour le portugais, pour lequel on a mis sur
> l'internet des listes de paires de mots avec la norme ancienne et la
> nouvelle, ainsi que d'autres ressources, qui ont permis de faire le boulot
> sans un gros effort. Pour le français, je ne sais pas certain que tout cela
> existe. Et en tout cas, il faut que nous tous, qui travaillons sur le
> français sur Apertium, soyons d'accord que cela soit nécessaire. Je ne veux
> pas casser les traducteurs français-portugais, français-espéranto et
> français-italien qui sont en développement.
>
> Maintenant sur le dictionnaire monolingue français nous avons des tas de
> formes doubles, presque toujours sans indication de la norme orthographique
> à laquelle ils appartiennent. Cela permet de reconnaître les mots, mais pas
> de contrôler si, au moment de la production, on génère un français selon
> une norme ou une autre au lieu d'un hybride. Puisque je ne suis pas un
> philologue, je suis sûr que je génère un hybride (bien que très penché sur
> la norme "classique", que j'ai appris à l'école... mais que j'oublie
> souvent à cause de sa difficulté et de mon manque de pratique écrite).
>
> Cordialement,
> Hèctor
>

Pour les accents circonflexes, mon avis est de les conserver tels quels
pour le ê et d'accepter qu'il n'y soient pas pour â î ô û dans les textes
à analyser mais de les mettre dans les textes à générer.

La lettre qui pose le plus de problèmes est le î où mettre cet accent
circonflexe n'est pas intuitif, alors qu'il apparaît très fréquemment.
Si on n'accepte pas dans un texte français à traduire les mots avec un
i normal, ça fait facilement de nombreux mots inconnus. Pour â ô et û
leur présence est beaucoup plus rare.

Pour le î transformé en i, il y aura des paradigmes de verbes à traiter.

Pour le traits d'union supprimés, même approche : les mettre lorsqu'on
traduit en français, accepter qu'il n'y soient pas si le français est
la langue source. Dans ce cas, ça va faire des multi mots.

Il y a un cas particulier, le t-<pronom> qu'on peut facilement écrire
comme on le prononce :
"prend t'il" au lieu de "prend-t-il", mais pas "prend t il" par exemple.

Si tu veux mettre des options dans le dictionnaire français, de la même
manière qu'il y en a rentre la portugais du portugal et el portugais
brésilien, pas de problème.

Les traducteurs français-espéranto et français-portugais utilisent pour
l'instant des monodices spécifiques. Pour l'instant, il semble que je
sois le dernier développeur plus ou moins actif de ces paires de langues.
Comme le travail que je fais sur Apertium est seulement sur mon temps
libre etque j'ai aussi d'autres activités de loisir, jusqu'en fin 2021,
je risque de ne pas trop travailler sur ces paires, ensuite, je devrai
avoir plus de temps.

Si rien de spécial n'est fait par quelqu'un d'autre sur ces 2 paires,
je pense que la première release se fera avec les monodices spécifiques
(traduction dans les 2 sens pour l'espéranto puisqu'il y a une release
de français à espéranto).

Maintenant si quelqu'un veut intégrer tout le vocubulaire présent dans
les paire fra-por et epo-fra (certainement la paire où il y a le plus de
mots) dans les monodices de langages fra, por et epo, pas de problème
pour basculer les traductions sur ces fichiers de réference. Simplement,
(et je trouve logique que pour les monodices de référence des langages
ce soit toujours comme ça), lorsque dans un paradigme un mot est analysé
comme mf ou comme sp, il faut accepter à la génération les genres m et
f ou les nombres sg et pl.

Par exemple, apertium-fr-es.fr.metadix donne le paradigme :

<pardef n="académique__adj">
  <e><p><l></l>                 <r><s n="adj"/><s n="mf"/><s 
n="sg"/></r></p></e>
  <e><p><l>s</l>                <r><s n="adj"/><s n="mf"/><s 
n="pl"/></r></p></e>
</pardef>

Dans apertium-fra-fra.metadix il faudrait l'une de ces 2 formes :

<pardef n="académique__adj">
  <e><p><l></l>                 <r><s n="adj"/><s n="mf"/><s 
n="sg"/></r></p></e>
  <e><p><l>s</l>                <r><s n="adj"/><s n="mf"/><s 
n="pl"/></r></p></e>
  <e r="RL"><p><l></l>          <r><s n="adj"/><s n="m"/><s n="sg"/></r></p></e>
  <e r="RL"><p><l>s</l>         <r><s n="adj"/><s n="m"/><s n="pl"/></r></p></e>
  <e r="RL"><p><l></l>          <r><s n="adj"/><s n="f"/><s n="sg"/></r></p></e>
  <e r="RL"><p><l>s</l>         <r><s n="adj"/><s n="f"/><s n="pl"/></r></p></e>
</pardef>

ou

<pardef n="académique__adj">
  <e r="LR"><p><l></l>          <r><s n="adj"/><s n="mf"/><s 
n="sg"/></r></p></e>
  <e r="LR"><p><l>s</l>         <r><s n="adj"/><s n="mf"/><s 
n="pl"/></r></p></e>
  <e r="RL"><p><l></l>          <r><s n="adj"/><s n="m"/><s n="sg"/></r></p></e>
  <e r="RL"><p><l>s</l>         <r><s n="adj"/><s n="m"/><s n="pl"/></r></p></e>
  <e r="RL"><p><l></l>          <r><s n="adj"/><s n="f"/><s n="sg"/></r></p></e>
  <e r="RL"><p><l>s</l>         <r><s n="adj"/><s n="f"/><s n="pl"/></r></p></e>
</pardef>

Ainsi, au lieu de traitements compliqués du genre ou du nombre dans le bidix
comme apertium-fr-es.fr-es.dix :

<e r="LR" a="webform"><p><l>technique<s n="adj"/><s n="mf"/></l><r>técnico<s 
n="adj"/><s n="GD"/></r></p></e>
<e r="RL" a="webform"><p><l>technique<s n="adj"/><s n="mf"/></l><r>técnico<s 
n="adj"/><s n="f"/></r></p></e>
<e r="RL" a="webform"><p><l>technique<s n="adj"/><s n="mf"/></l><r>técnico<s 
n="adj"/><s n="m"/></r></p></e>

qui correspond à la manière dont on travaillait au tout début et est tout
à fait conforme à le devise Shadock "pourquoi faire simple quand on peut
faire compliqué ?" (je ne sais pas si le shadocks sont connus en Espagne,
le rajout de possibilités dans le sens RL permet des définitions beaucoup
plus simples dans le bidix.

apertium-fra-por.fra-por.dix :

<e>   <p><l>technique<s n="adj"/></l>   <r>técnico<s n="adj"/></r></p></e>

apertium-epo-fra.epo-fra.dix :

<e>   <p><l>teknika<s n="adj"/></l>     <r>technique<s n="adj"/></r></p></e>

Si ce n'est pas fait, il faufra mettre à niveau les paradigmes des langages
fra et por dans ce sens avant de pouvoir les utiliser pour les paires
fra-por et epo-fra .

Mais sinon, à plus ou moins long terme, l'utilisation de ces langages de
référence + des amélioration de la phase d'analyse du français sera utile
pour une meilleure désembiguisation.

Je ne parle ni catalan ni occitan, mais les phrases :

Les poules du couvent couvent leurs oeufs.
La Russie est à l'est, elle l'est.

donnent des résultats cohérents dans ces 2 langues, alors que pour les
paires fr-es , fra-por et epo-fra il y a des erreurs.

Dans le cas de fra-por, j'ai même supprimé le mot "est" comme point
cardinal afin d'éviter des erreur d'interprétation fréquentes du verbe
être.


--------------------------------
Bernard Chardonneau (France)
Phone : [33] 9 72 36 32 90
GSM phone : [33] 7 69 46 16 31

An alternative Apertium translation website :
http://apertiumtrad.tuxfamily.org

Multilingual websites for my free softwares :
http://libremail.free.fr and http://libremail.tuxfamily.org
http://cyloop.tuxfamily.org (mainly translated with Apertium)

My general website (in french only)
http://bech.free.fr


_______________________________________________
Apertium-stuff mailing list
Apertium-stuff@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-stuff

Reply via email to