Re: [Apertium-catala] Municipis francesos

2020-02-14 Thread Hèctor Alòs i Font
Missatge de Jaume Ortolà i Font  del dia dv., 14 de
febr. 2020 a les 11:31:

> Missatge de Hèctor Alòs i Font  del dia dv., 14 de
> febr. 2020 a les 7:01:
>
>> De tota manera, aquí és més complicat que el cas del sistema per detectar
>> antropònims desconeguts d'apertium-cat. El problema és que coses com
>> Sainte-Marie-de-Gosse són quatre paraules perquè el guionet es tracta com a
>> separador de paraules. Per tant, seguint la mateixa idea, caldria marcar
>> totes quatre paraules per a impedir-ne la traducció. A més, per a més
>> seguretat, voldria assegurar-me que el separador de paraules és un guionet
>> i no un blanc, i no sé com accedir a aquesta informació en CG. Caldrà
>> demanar-li-ho a en Tino (per la mateixa raó, no sé com canviar el guionet a
>> un blanc en coses com "rue Victor-Hugo").
>>
>
> Jo ho vaig fer servir en el fitxer spa.rlx.[1] Els caràcters que no entren
> dins dels tokens (p. ex. guions i guionets) queden en un espai que es diu
> "meta".
>
> [1]
> https://github.com/apertium/apertium-spa/blob/master/apertium-spa.spa.rlx#L231
>

Perfecte! És justament el que buscava. Moltes gràcies!

Hèctor
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] Municipis francesos

2020-02-14 Thread Jaume Ortolà i Font
Missatge de Hèctor Alòs i Font  del dia dv., 14 de
febr. 2020 a les 7:01:

> De tota manera, aquí és més complicat que el cas del sistema per detectar
> antropònims desconeguts d'apertium-cat. El problema és que coses com
> Sainte-Marie-de-Gosse són quatre paraules perquè el guionet es tracta com a
> separador de paraules. Per tant, seguint la mateixa idea, caldria marcar
> totes quatre paraules per a impedir-ne la traducció. A més, per a més
> seguretat, voldria assegurar-me que el separador de paraules és un guionet
> i no un blanc, i no sé com accedir a aquesta informació en CG. Caldrà
> demanar-li-ho a en Tino (per la mateixa raó, no sé com canviar el guionet a
> un blanc en coses com "rue Victor-Hugo").
>

Jo ho vaig fer servir en el fitxer spa.rlx.[1] Els caràcters que no entren
dins dels tokens (p. ex. guions i guionets) queden en un espai que es diu
"meta".

[1]
https://github.com/apertium/apertium-spa/blob/master/apertium-spa.spa.rlx#L231

En resum, per a topònims i antropònims, crec que val la pena afegir-los
> massivament als diccionaris, especialment quan tractes llengües mínimament
> més distants que el català i el castellà.
>

Per mi, avant. Afegeix el que creguis necessari. No serà un problema per
als altres parells.

Jaume Ortolà
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] Municipis francesos

2020-02-13 Thread Hèctor Alòs i Font
Gràcies, Jaume, per la idea. Sembla la més raonable en aquest cas. No
m'havia imaginat trobar-me 80.000 municipis, sinó deu vegades menys.

De tota manera, aquí és més complicat que el cas del sistema per detectar
antropònims desconeguts d'apertium-cat. El problema és que coses com
Sainte-Marie-de-Gosse són quatre paraules perquè el guionet es tracta com a
separador de paraules. Per tant, seguint la mateixa idea, caldria marcar
totes quatre paraules per a impedir-ne la traducció. A més, per a més
seguretat, voldria assegurar-me que el separador de paraules és un guionet
i no un blanc, i no sé com accedir a aquesta informació en CG. Caldrà
demanar-li-ho a en Tino (per la mateixa raó, no sé com canviar el guionet a
un blanc en coses com "rue Victor-Hugo").

Quant als antropònims, penso, tanmateix, que cal afegir-los i per això ho
faig en els parells en què treballo.

* En les llengües que tractem, hi ha molts casos de cognoms que són també
noms, adjectius o formes verbals. Això causa coses com:

$ echo "Gaudí era arquitecte" | apertium -d . cat-spa
Disfrutó era arquitecto

* Si realment afegir-los fos un problema, es podrien col·leccionar fora del
diccionari i afegir només quan "col·lisionessin" amb una paraula. Però això
valdria també per a tots els antropònims d'altres llengües amb el mateix
problema.

* De tota manera, tampoc resulta una bona opció per als prenoms, per als
quals ens interessa saber el gènere, per exemple per a generar correctament
el gènere (i el nombre) de l'atribut, particularment en casos de mf o sp de
l'atribut en la llengua font (i sense aquesta ambigüitat en la llengua
objectiu).

* Donat que també prou sovint prenoms i cognoms (i topònims) coincideixen,
és bo desambiguar-los per a tenir informació del gènere (i de si cal
traduir-los, en el cas d'alguns topònims) i, a vegades, per a la selecció
lèxica (a > a, en).

* Com més paraules desconegudes tenim, pitjor és per a l'anàlisi
sintàctica. Per exemple, per a la traducció al francès cal saber si hi ha
subjecte o no per a generar el pronom subjecte o no.

* El truc que hi ha ara d'endevinar que pot haver-hi cognoms i que val més
no traduir-los és molt enginyós, però a mi, que tinc recollits en els
diccionaris moltíssims antropònims, em genera força més problemes que els
molt pocs que corregeix. Els problemes es donen, per exemple, en la
traducció d'organismes, tractats, etc. que normalment són de més d'una
paraula i s'escriuen en majúscules:

echo "Comitè Nobel Noruec" | apertium -d . cat-fra-disam
""
"comitè" n m sg
""
"Nobel" np cog mf sp
""
"*Noruec" np SUBSTITUTE:338:nom_propi1 REPLACE:339:nom_propi2
"<.>"
"." sent

(en cat-spa la traducció és correcta, sembla ser perquè Nobel està afegit
com a np.al)

En resum, per a topònims i antropònims, crec que val la pena afegir-los
massivament als diccionaris, especialment quan tractes llengües mínimament
més distants que el català i el castellà.

Cordialment,
Hèctor


Missatge de Jaume Ortolà i Font  del dia dv., 14 de
febr. 2020 a les 1:17:

> Certament, afegint topònims o antropònims no acabaríem mai. I arriba un
> punt en què això té una utilitat baixa.
>
> Si l'objectiu és evitar traduccions indesitjables de noms propis, potser
> es pot arreglar aplicant algunes regles de CG com les que tenim en spa-cat.
> Aquestes regles el que fan és no traduir certes paraules que, pel context,
> poden ser noms propis. Pots copiar les mateixes regles, i afegir-ne alguna
> més (com ara per a aquests típics noms francesos: Saint-..., ...-de-...,
> ...-sur-...). Aquests noms apareixeran marcats amb *, però val més això que
> no una traducció absurda.
>
> Salutacions,
> Jaume Ortolà
>
>
> Missatge de Hèctor Alòs i Font  del dia dj., 13 de
> febr. 2020 a les 23:05:
>
>> He afegit al traductor fra-cat i por-cat els municipis de Catalunya i el
>> País Valencià recollits a les taules Excel d'apertium-cat i que ja estaven
>> en el diccionari monolingüe català (n'hi ha que són a les taules, però no
>> al diccionari). No representa cap problema afegir-los als altres
>> diccionaris perquè només són uns 1500.
>>
>> El problema és l'invers. Estic en disposició de carregar tots els
>> municipis de l'Estat francès, però són uns 80.000. El diccionari monolingüe
>> català té ara uns 110.000 lemes, amb la qual cosa gairebé el duplicaria per
>> a un ús nul en altres traductors automàtics basats en el català. Alentiria
>> les compilacions de tothom, etc. Però sense afegir aquests municipis tinc
>> traduccions ridícules com:
>>
>> echo "Sainte-Marie-de-Gosse" | apertium -d . fra-cat
>> Santa-Maria-de-Marrec
>>
>> Idees?
>>
>> Hèctor
>> ___
>> Apertium-catala mailing list
>> Apertium-catala@lists.sourceforge.net
>> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>>
>
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] Municipis francesos

2020-02-13 Thread Jaume Ortolà i Font
Certament, afegint topònims o antropònims no acabaríem mai. I arriba un
punt en què això té una utilitat baixa.

Si l'objectiu és evitar traduccions indesitjables de noms propis, potser es
pot arreglar aplicant algunes regles de CG com les que tenim en spa-cat.
Aquestes regles el que fan és no traduir certes paraules que, pel context,
poden ser noms propis. Pots copiar les mateixes regles, i afegir-ne alguna
més (com ara per a aquests típics noms francesos: Saint-..., ...-de-...,
...-sur-...). Aquests noms apareixeran marcats amb *, però val més això que
no una traducció absurda.

Salutacions,
Jaume Ortolà


Missatge de Hèctor Alòs i Font  del dia dj., 13 de
febr. 2020 a les 23:05:

> He afegit al traductor fra-cat i por-cat els municipis de Catalunya i el
> País Valencià recollits a les taules Excel d'apertium-cat i que ja estaven
> en el diccionari monolingüe català (n'hi ha que són a les taules, però no
> al diccionari). No representa cap problema afegir-los als altres
> diccionaris perquè només són uns 1500.
>
> El problema és l'invers. Estic en disposició de carregar tots els
> municipis de l'Estat francès, però són uns 80.000. El diccionari monolingüe
> català té ara uns 110.000 lemes, amb la qual cosa gairebé el duplicaria per
> a un ús nul en altres traductors automàtics basats en el català. Alentiria
> les compilacions de tothom, etc. Però sense afegir aquests municipis tinc
> traduccions ridícules com:
>
> echo "Sainte-Marie-de-Gosse" | apertium -d . fra-cat
> Santa-Maria-de-Marrec
>
> Idees?
>
> Hèctor
> ___
> Apertium-catala mailing list
> Apertium-catala@lists.sourceforge.net
> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala