Re: [Apertium-catala] tractament de noms propis

Jaume Ortolà i Font Mon, 30 Apr 2018 13:16:21 -0700

El dia 30 d’abril de 2018 a les 19:59, Hèctor Alòs i Font <
hectora...@gmail.com> ha escrit:


> He posat aquestes regles a apertium-cat i les he provades traduint al
> francès un corpus de 20.000 frases de la Viquipèdia catalana triades a
> l'atzar. El resultat és que feia malbé les xifres romanes darrere dels noms
> de reis, papes i aviram del ram (i les regles de selecció lèxica associades
> al tema). He afegit un pedaç per què les regles no s'apliquin amb els
> números romans:
>

Gràcies per provar-ho.

Això dels números romans en spa-cat no passa perquè es marquen com a <num>.
En el fra-cat veig que es marquen com a adjectius.


> SUBSTITUTE:nom_propi1 (".*"r) ("\\*$1"v) TARGET ("<(.*)>"r) IF (-1C (ant))
> (0C Verb OR N OR A) (0 MajIni) (NOT 0 segles_num_romans);
> #Posa com a lema la forma de la paraula marcada amb *
> # Amb els adjectius hi ha més risc d'error (!)
> REPLACE:nom_propi2 (np) Verb OR N OR A IF (-1C (ant)) (0C Verb OR N OR A)
> (0 MajIni) (NOT 0 segles_num_romans);  # Això no sé si és útil.
>
> Després d'això, he tornat a traduir el corpus i comparar amb la traducció
> feta abans del canvi i no he trobat cap diferència. És a dir, no s'ha fet
> res malbé, però també no s'ha arreglat res. Evidentment, en un corpus
> periodístic amb més cognoms del país seria una altra historia. Cal dir
> també que el el diccionari català tenim els 5000 cognoms més freqüents a
> Catalunya extrets de l'IDESCAT. Això dóna més garanties en traduccions des
> del català, especialment de textos del Principat.
>

Jo crec que serà útil. En spa-cat passa molt. Acabo de passar un llista de
500 persones de València (nom i 2 cognoms) i ixen 31 cognoms susceptibles
d'haver estat "traduïts" spa>cat.

Però ara tinc un problema. He intenta fer el mateix cat>spa i veig que la
regla no fa absolutament res (Joan Taronger > Joan Naranjo; quan s'espera
Joan *Taronger). No sé què pot ser. Alguna cosa de configuració? Algú ho
pot provar?

Jaume


>
> El dia 30 d’abril de 2018 a les 11:30, Jaume Ortolà i Font <
> jaumeort...@gmail.com> ha escrit:
>
>> Bon dia,
>>
>> He fet una petita prova, i de moment és prou satisfactòria. He posat en
>> el fitxer CG spa:
>>
>> SUBSTITUTE:nom_propi1 (".*"r) ("\\*$1"v) TARGET ("<(.*)>"r) IF (-1C
>> (ant)) (0C Verb OR N OR A) (0 MajIni);
>> #Posa com a lema la forma de la paraula marcada amb *
>> # Amb els adjectius hi ha més risc d'error (!)
>> REPLACE:nom_propi2 (np) Verb OR N OR A IF (-1C (ant)) (0C Verb OR N OR A)
>> (0 MajIni);  # Això no sé si és útil.
>>
>> Com a resultat tenim spa-cat:
>>
>> Mónica *Naranjo   (era Mónica Taronger)
>> Alberto *Isla          (era Alberto Illa)
>> Juana *Corredera (era Juana Corredissa)
>> Enric *Morera       (era Enric Morera)
>> Moratal *Sastre    (era Moratal Sastre)
>>
>> Com veieu, evitem traduir Naranjo, Isla i Corredera, i també Morera i
>> Sastre. Però aquests últims en la traducció spa-cat eixien bé perquè
>> casualment la traducció spa-cat coincideix; en altres idiomes hauria donat
>> errors. També es pot forçar un @ en comptes de *. Però així crec que és
>> millor.
>>
>> Per a mi, aquest és el comportament ideal. No caldria res més. Ara
>> hauríem de fer més proves, i afegir alguna regla més per a contexts
>> semblants.
>>
>> Salutacions,
>> Jaume Ortolà
>>
>>
>> El dia 24 d’abril de 2018 a les 23:32, Jaume Ortolà i Font <
>> jaumeort...@gmail.com> ha escrit:
>>
>>> El dia 24 d’abril de 2018 a les 19:35, Hèctor Alòs i Font <
>>> hectora...@gmail.com> ha escrit:
>>>
>>>> De tota manera, afegir amb CG  una etiqueta especial o canviar
>>>> l'etiqueta que hi hagi sembla complicat:
>>>> - Caldrà fer alguna cosa a la banda final del "pipe" d'apertium per
>>>> poder generar el cognom sense que surti un #
>>>>
>>>
>>> Sí, això pensava. Entenc que Aperitum no permet generar res que no
>>> estigui definit en el diccionari de destinació. De totes maneres això seria
>>> un plus. De moment n'hi hauria prou evitant les falses traduccions  de
>>> l'estil "Antonio Taló > Antonio Va talar". Jo ja em conformaria que sortís
>>> "Antonio *Taló", si pogués ser.
>>>
>>> Jaume
>>>
>>>
>>>
>>>> - Si el que es faci de CG és general per al tots els traductors que
>>>> utilitzin, per exemple, apertium-spa, caldrà retocar tots els traductors
>>>> amb català llengua d'origen de la traducció (i l'equivalent per a
>>>> apertium-cat).
>>>>
>>>> El dia 24 d’abril de 2018 a les 16:37, Jaume Ortolà i Font <
>>>> jaumeort...@gmail.com> ha escrit:
>>>>
>>>>> Gràcies per la resposta, Hèctor.
>>>>>
>>>>> La nova versió ja està pràcticament tancada, i per tant ja no hi
>>>>> entrarien aquests canvis. Evidentment caldria provar-ho amb més temps.
>>>>>
>>>>> Les regles serien potents i caldria anar amb molt de compte. S'haurien
>>>>> de controlar molt bé tots els contextos. Jo ho veig factible. Pense en
>>>>> casos com:
>>>>>
>>>>> El señor *Subías* declara que... [Una paraula només reconeguda com a
>>>>> verb, en majúscula i voltada de minúscules].
>>>>> José María *Taló* García [Un verb en majúscula voltat d'antropònims]
>>>>> Luis *Almería* Martínez [Un topònim voltat d'antropònims]
>>>>> Jesús *Bertomeu* [Un nom ara mateix desconegut després d'un
>>>>> antropònim]
>>>>> ...
>>>>>
>>>>> Ho provarem.
>>>>>
>>>>> Salutacions,
>>>>> Jaume Ortolà
>>>>>
>>>>>
>>>>> El dia 24 d’abril de 2018 a les 14:58, Hèctor Alòs i Font <
>>>>> hectora...@gmail.com> ha escrit:
>>>>>
>>>>>> Jaume,
>>>>>>
>>>>>> El que proposes em sembla perillós. Si ho entenc bé la idea, al cap i
>>>>>> a la fi, sembla que seria no traduir les paraules que comencen amb
>>>>>> majúscula si van més o menys seguides d'altres amb majúscula (o seria
>>>>>> obligatòriament en presència d'alguna paraula desconeguda que també va en
>>>>>> majúscula?). El problema és que això fàcilment acabarà fent que Creu 
>>>>>> Roja o
>>>>>> Alps Escandinaus o potser fins i tot Pirineus no es tradueixin. Per altra
>>>>>> banda, hi ha el problema que Domingo Rojo pot ser un nom de persona, però
>>>>>> també un fet històric. A més, si s'accepten coses com "Juan de Dios" com
>>>>>> una unitat, el sistema per reconèixer antropònims per no traduir-los pot
>>>>>> començar a agafar moltes coses que no ho són, per exemple Joan d'Àustria
>>>>>> seguirà sent Joan d'Àustria i no Juan de Austria. Jo, conceptualment, no 
>>>>>> ho
>>>>>> veig gens clar.
>>>>>>
>>>>>> A priori, però, la manera d'implementar coses d'aquestes sembla que
>>>>>> sigui CG. Allà hi ha regles que tracten paraules començades per 
>>>>>> majúscula.
>>>>>> El que hi ha fins ara, però, és triar o eliminar anàlisis existents. Aquí
>>>>>> caldria afegir alguna cosa que no hi és.
>>>>>>
>>>>>> En tot cas, a una setmana de posar en marxa una nova versió, sembla
>>>>>> que estem parlant d'un canvi molt important que s'hauria de provar a 
>>>>>> fons.
>>>>>> Potser que no sigui el moment de fer-ho ara per a aquesta versió.
>>>>>>
>>>>>> Cordialment,
>>>>>> Hèctor
>>>>>>
>>>>>> El dia 24 d’abril de 2018 a les 15:28, Jaume Ortolà i Font <
>>>>>> jaumeort...@gmail.com> ha escrit:
>>>>>>
>>>>>>> Bon dia,
>>>>>>>
>>>>>>> Em pregunte si seria possible de fer algunes regles per al
>>>>>>> tractament de noms de persona (noms i cognoms). Per més cognoms que 
>>>>>>> afegim
>>>>>>> als diccionaris, sempre n'hi haurà més. I el perill de traduir un cognom
>>>>>>> sempre està present. Acabe de fer una prova spa-cat amb una llista de 
>>>>>>> 100
>>>>>>> persones (nom i cognoms), i han eixit 14 traduccions falses, per 
>>>>>>> diferents
>>>>>>> motius (alguns són topònims, paraules comunes, etc.) És un percentatge 
>>>>>>> molt
>>>>>>> alt.
>>>>>>>
>>>>>>> Almeria
>>>>>>> Cirerer (Cerezo)
>>>>>>> Desemparats
>>>>>>> Plàcida
>>>>>>> Os (Hueso)
>>>>>>> Muntanyès
>>>>>>> el Campello (per Campello)
>>>>>>> Còrdova
>>>>>>> Diumenge roig (Domingo Rojo)
>>>>>>> Savina
>>>>>>> Francès
>>>>>>> Va talar (Taló)
>>>>>>> Juan de Déu
>>>>>>> Pujaves (Subías)
>>>>>>> Remeie (Remedio)
>>>>>>>
>>>>>>> Una solució és, evidentment, continuar afegint noms i cognoms als
>>>>>>> diccionaris i etiquetar-los correctament. Però això no s'acaba mai. Crec
>>>>>>> que es podrien fer algunes regles per a arreglar-ho. Conceptualment és
>>>>>>> senzill, però no sé si es pot implementar fàcilment.
>>>>>>>
>>>>>>> Si es troben 3-4 paraules seguides en majúscules, que són paraules
>>>>>>> desconegudes o barrejades amb noms propis, llavors no s'hauria de 
>>>>>>> traduir
>>>>>>> cap paraula del grup i deixar-ho tal qual.
>>>>>>>
>>>>>>> O altres regles, ara pensant en paraules soltes. Per exemple, una
>>>>>>> paraula que només pot ser un verb (Subías, Taló, en espanyol) si està en
>>>>>>> majúscula en qualsevol lloc que no siga el principi de la frase, 
>>>>>>> llavors no
>>>>>>> es tradueix. Etcètera.
>>>>>>>
>>>>>>> ¿Trobeu que té sentit fer aquestes regles? Ara, ¿es poden
>>>>>>> implementar? ¿En quin mòdul? Caldria poder detectar paraules en 
>>>>>>> majúscula i
>>>>>>> indicar amb alguna marca "no traduïsques".
>>>>>>>
>>>>>>> Salutacions,
>>>>>>> Jaume Ortolà
>>>>>>>
>>>>>>>
>>>>>>> ------------------------------------------------------------
>>>>>>> ------------------
>>>>>>> Check out the vibrant tech community on one of the world's most
>>>>>>> engaging tech sites, Slashdot.org! http://sdm.link/slashdot
>>>>>>> _______________________________________________
>>>>>>> Apertium-catala mailing list
>>>>>>> Apertium-catala@lists.sourceforge.net
>>>>>>> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>>>>>>>
>>>>>>>
>>>>>>
>>>>>
>>>>
>>>
>>
>

------------------------------------------------------------------------------
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot

_______________________________________________
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala

Re: [Apertium-catala] tractament de noms propis

Reply via email to