Re: [Apertium-catala] Sistema noruec en els diccionaris

Hèctor Alòs i Font Tue, 20 Dec 2022 09:06:50 -0800

Gràcies, Marc, pels aclariments. A més, el teu darrer commit serveix bé com
a exemple:
https://github.com/apertium/apertium-cat/commit/c8626b3b90905f9e27f0e9c38cde03a9473dae68#diff-c69b3a1a7d3affcd318392f71bc53df1dade27bcb1ed73952eb7d70c8786adcb


Això realment és un treball de rellotger si per a cada forma marcada com a
divergent (p. ex. "hui") se li associa una forma considerada
convencionalment com a estàndard (p. ex. "avui"), que és el que has fet
ara. Però no sé si això serà la manera de procedir en la majoria dels casos
que hi ha al bidix. Per exemple, es farà una cosa semblant per a "eixir" i
"eixida", marcant-los com a formes de "sortir" i "sortida"? A més un
problema que ens trobem no poques vegades en occità és que una paraula com
a "eixida" en un dialecte significa "sortida" i en un altre "pati" (veig,
però, que "eixida" s'interpreta sempre com a "sortida" a cat-spa). Amb
aquest sistema, sembla que caldria crear dos lemes per a "eixida".

Com dieu i es veu pel que heu fet, el sistema es pot fer progressivament,
però esperava que almenys una part es podria automatitzar. Em cal rumiar-ho
una mica. Si tot ha de ser manual, realment surt a compte demanar un
estudiant perquè se n'encarregui amb un GSoC.

Molt cordialment,
Hèctor

PS
Tampoc us penseu que en sé gaire d'occità, jo. Més que de sard o arpità,
però el que faig en tots els casos és utilitzar diccionaris, gramàtiques i
moooltes consultes a especialistes i parlants.

Missatge de Marc Riera Irigoyen <marc.riera.irigo...@gmail.com> del dia
dt., 20 de des. 2022 a les 18:26:

> Hola, Hèctor,
>
> En Xavi ja ha explicat tots els detalls tècnics; només volia afegir alguna
> informació més sobre la compilació i el procés d'implementació en
> apertium-cat.
>
> Per a habilitar les preferències de generació (que és la part important en
> apertium-cat), cal modificar una única vegada el paquet monolingüe i tots
> els parells implicats per a incorporar el pas addicional amb CG. Això és el
> que vam fer amb els diacrítics. Un cop aplicat aquest canvi, es poden
> afegir totes les preferències que es vulguin.
>
> Un dels avantatges que té aquest sistema i que s'està aprofitant molt és
> que la creació de noves preferències pot ser progressiva. Apertium-cat
> tenia i encara té moltes formes marcades amb "val_gva" i "val_uni", des de
> qüestions purament de lèxic fins a aspectes de flexió verbal. Hem anat
> eliminant aquestes marques i canviant-les per les preferències
> corresponents, que després apliquen els modes "val_gva" i "val_uni"
> (cadascun té una llista de preferències que s'apliquen sí o sí). Els dos
> sistemes poden conviure sense regressions durant tot el procés de
> transformació, per la qual cosa puc canviar dues entrades avui i cinc demà
> sense preocupar-me per fer-ho tot de cop. Si se suprimeixen totes les
> marques antigues de variant, es pot simplificar la compilació. Amb el
> català queda poc per a poder prescindir d'una variant de compilació, com ha
> dit en Xavi, però encara mantenim les 3 variants.
>
> Jo tampoc hi entenc gaire de l'occità (algun dia en vull aprendre), però
> crec que podríeu aprofitar aquest sistema com a mínim per a la generació.
> No ho he vist implementat en el trànsfer, per exemple, però crec que seria
> viable amb alguna modificació en els mòduls corresponents.
>
> A reveure,
>
> *Marc Riera*
>
>
> Missatge de Xavi Ivars <xavi.iv...@gmail.com> del dia dg., 18 de des.
> 2022 a les 21:34:
>
>> De moment l'única preferència totalment integrada, que elimina la
>> necessitat de diccionaris extra és el pre/post reforma al monolingüe, i els
>> topònims al bilingüe.
>>
>> A mesura que la resta de coses s'integren completament a apertium-cat
>> (ara mateix no sé exactament què falta, per exemple, entre val_uni i
>> val_gva) podrem anar a dos (cat/val) o fins i tot només un (quan la
>> preferència lexic_val estiga completa, però per a això segurament es
>> tardarà prou més)
>>
>>
>> --
>> Xavi Ivars
>> < http://xavi.ivars.me >
>>
>> El dg., 18 de des. 2022, 20:26, Hèctor Alòs i Font <hectora...@gmail.com>
>> va escriure:
>>
>>> Missatge de Xavi Ivars <xavi.iv...@gmail.com> del dia dg., 18 de des.
>>> 2022 a les 20:17:
>>>
>>>>
>>>>
>>>> Missatge de Hèctor Alòs i Font <hectora...@gmail.com> del dia dt., 13
>>>> de des. 2022 a les 17:02:
>>>>
>>>>> Hola,
>>>>>
>>>>> En els diccionaris occitans són un embolic perquè hi ha un fum de
>>>>> varietats i aquestes són francament diferents entre elles. A més,
>>>>> l'ortografia no resolt ni un sol cas d'homonímia i són molts en tanta
>>>>> varietat dialectal i intradialectal. Això fa que, en comptes d'utilitzar 
>>>>> en
>>>>> els diccionaris una etiqueta "v" o "vr", s'utilitza una etiqueta "alt", 
>>>>> que
>>>>> fa que una paraula (o terminació) pertanyi només a una varietat, sense que
>>>>> sigui visible per a les altres. Això multiplica el nombre de línies en els
>>>>> diccionaris. Tot plegat fa que els temps de compilació ja són enormes i
>>>>> encara ho seran més quan afegim el provençal i el llemosí, que són els
>>>>> següents de la llista. Per això estem pensant d'introduir el sistema 
>>>>> noruec
>>>>> que, per una banda, dona més flexibilitat i, per altra, sembla que redueix
>>>>> el temps de compilació.
>>>>>
>>>>> Com ho teniu en el spa-cat? És difícil de fer el pas? Es triga gaire?
>>>>> Es guanya significativament en temps de compilació?
>>>>>
>>>>> Estem pensant de proposar fer aquest port com un projecte del Google
>>>>> Summer of Code. Us sembla raonable?
>>>>>
>>>>>
>>>> Hola Hèctor,
>>>>
>>>> Segurament Marc en podria parlar molt millor que jo, ja que ell és qui
>>>> ha fet tota la feina d'integració de preferències, però ací van unes
>>>> quantes coses.
>>>>
>>>> El sistema de preferències que ara mateix té apertium-cat dóna molta
>>>> flexibilitat per a certes coses, però no sé fins a quin punt resoldria el
>>>> problema principal que té l'occità, inherent a la complexitat de la mateixa
>>>> llengua. Ací [1] pots veure les preferències que hi ha ara mateixa
>>>> configurades.
>>>>
>>>> Com veus, són coses que van "a part" de les diferències lèxiques entre
>>>> les variants: cobreixen sobretot diferències ortogràfiques que, a més, es
>>>> poden combinar. Per exemple, abans teníem una un català per a les
>>>> universitats valencianes que utilitzava el "lèxic valencià", marcat com a
>>>> "val" als diccionaris (p.ex. espill en lloc de mirall), però utilitzava les
>>>> normés d'accentuació "catalanes" (cafè, anglès,...) i els accents
>>>> diacrítics post-reforma 2017. En canvi, la variant que féiem servir a
>>>> Softcatalà era també lèxic valencià, però normes d'accentuació valencianes
>>>> i diacrítics pre-reforma 2017. Després, estava la variant que volia la
>>>> Generalitat Valenciana: lèxic valencià i normes d'accentuació valencianes,
>>>> però diacrítics post-reforma. I topònims "oficials" (Orihuela per a textos
>>>> en valencià) enlloc del que la resta de variants valencianes feien servir
>>>> (Oriola). Tota eixa combinatòria feia que es generaren moltíssims
>>>> diccionaris de generació diferents (amb el seu temps de compilació
>>>> corresponent), per a cobrir tots els casos.
>>>>
>>>> Ara, en canvi, eixes coses es resolen sense diccionaris diferents: en
>>>> diferents moments de la pipeline (en aplicar el diccionari bilingüe, o
>>>> durant de la generació) es generen dues o més versions del que siga
>>>> (mirall/espill, o anglès/anglés, o vuit/huit, o...) i s'aplica un xicotet
>>>> fitxer de CG que resol l'ambigüitat, molt focalitzat en una cosa concreta.
>>>> Això fa que, a l'hora de compilar, només es compile un diccionari de
>>>> generació (molt més gros, això si), en lloc de vora 8 que n'hi havia abans.
>>>>
>>>> Una de les parts bones és que es pot fer de manera totalment
>>>> incremental: nosaltres vam crear primer que res una preferència al spa-cat
>>>> per als topònims (oficials vs tradicionals), i amb això vam resoldre una de
>>>> les dimensions que teníem, reduint el nombre de diccionaris compilats. En
>>>> canvi, la preferència del lèxic valencià encara no està (totalment)
>>>> integrada als diccionaris, per la qual cosa encara es compilen diccionaris
>>>> de generació diferents per al català i el valencià.
>>>>
>>>> Amb una desconeixença elevada de l'occità, el que jo recomanaria és
>>>> deixar de pensar tant en variants o dialectes i més en "característiques"
>>>> que puguen ser compartides pels diferents dialectes. Un bon exemple és la
>>>> preferència "motle" a l'apertium-cat: permet generar paraules com motle o
>>>> ametla vs motlle o ametlla, de forma totalment desacoblada de les variants
>>>> dialectals.
>>>>
>>>> Exemples podrien ser (si els articles sobre aranés a la Wikipedia són
>>>> correctes, i foren trets compartits entre dialectes), els plurals femenins
>>>> amb -es vs -as, o la lletra u/v intervocàlica per a paraules com aver/auer
>>>> (haver en català). Si eixes dues coses es modelen com a diferents
>>>> "preferències", en lloc de com a "variants dialectals" (ja siga amb alt o
>>>> amb vr o v), després es pot o bé combinar amb els diccionaris dialectals
>>>> existents, creant fitxers de preferències per a modes específics (ací pots
>>>> veure en què s'ha convertit el mode de valencià de la GVA [2]), o també
>>>> exposant-ho a les interfícies perquè l'usuari trie la combinació de
>>>> preferències que vol.
>>>>
>>>> Finalment, respecte a si paga la pena o no, segurament és algo que
>>>> haureu de considerar vosaltres. Una migració completa segurament requereix
>>>> un esforç molt significatiu. I potser no compensa la reducció del temps de
>>>> compilació. Però si (per exemple), el provençal i el llemosí es poden
>>>> modelar totalment com a un conjunt de característiques compartides (per
>>>> exemple X vs Y i J vs K, llenguadocià + llemosí fan X, mentre provençal fa
>>>> Y, però llenguadocià fa J mentre llemosí i provençal fan K), podeu
>>>> estalviar-vos totalment modelar això com a alt (o vr/v) i reduir els
>>>> diccionaris compilats.
>>>>
>>>> No sé si he ajudat massa... 😅
>>>>
>>>>
>>>> [1]
>>>> https://github.com/apertium/apertium-cat/blob/master/cat.preferences.xml
>>>> [2]
>>>> https://github.com/apertium/apertium-cat/blob/master/apertium-cat.cat_valencia_gva.prefs.rlx
>>>>
>>>> --
>>>> < Xavi Ivars >
>>>> < http://xavi.ivars.me >
>>>>
>>>
>>>
>>> Moltíssimes gràcies, Xavier, pels teus aclariments. Tanmateix, jo
>>> segueixo veient tres compilacions dels diccionaris cat, val_gva i val_uni a
>>> apertium-cat quan es toca el diccionari i altra vegada dels tres a
>>> apertium-spa-cat quan es toca el diccionari bilingüe. Això em despista molt
>>> perquè no veig bé què estan aportant les "característiques" quant a
>>> reducció de compilacions o del temps de compilació.
>>>
>>> Quant a les especificitats de l'occità amb relació al català a Apertium,
>>> jo diria que bàsicament són dues:
>>> 1) que no només les varietats són presents en la generació, sinó també
>>> en l'anàlisi (la qual cosa multiplica per dos les compilacions);
>>> i 2) que hi ha força més varietats que les tres bàsiques que actualment
>>> maneguem en català (gràcies al sistema tan enginyós que heu trobat per
>>> tractar el català pre- i post- reforma).
>>> Les dues coses fan que les compilacions dels diccionaris resultin molt
>>> importants per fer més operatiu el desenvolupament de l'occità a Apertium.
>>>
>>> Cordialment,
>>> Hèctor
>>>
>> _______________________________________________
>> Apertium-catala mailing list
>> Apertium-catala@lists.sourceforge.net
>> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>>
> _______________________________________________
> Apertium-catala mailing list
> Apertium-catala@lists.sourceforge.net
> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>

_______________________________________________
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala

Re: [Apertium-catala] Sistema noruec en els diccionaris

Reply via email to