Re: [Apertium-catala] Sistema noruec en els diccionaris

Xavi Ivars Sun, 18 Dec 2022 12:34:33 -0800

De moment l'única preferència totalment integrada, que elimina la
necessitat de diccionaris extra és el pre/post reforma al monolingüe, i els
topònims al bilingüe.


A mesura que la resta de coses s'integren completament a apertium-cat (ara
mateix no sé exactament què falta, per exemple, entre val_uni i val_gva)
podrem anar a dos (cat/val) o fins i tot només un (quan la preferència
lexic_val estiga completa, però per a això segurament es tardarà prou més)


--
Xavi Ivars
< http://xavi.ivars.me >

El dg., 18 de des. 2022, 20:26, Hèctor Alòs i Font <hectora...@gmail.com>
va escriure:

> Missatge de Xavi Ivars <xavi.iv...@gmail.com> del dia dg., 18 de des.
> 2022 a les 20:17:
>
>>
>>
>> Missatge de Hèctor Alòs i Font <hectora...@gmail.com> del dia dt., 13 de
>> des. 2022 a les 17:02:
>>
>>> Hola,
>>>
>>> En els diccionaris occitans són un embolic perquè hi ha un fum de
>>> varietats i aquestes són francament diferents entre elles. A més,
>>> l'ortografia no resolt ni un sol cas d'homonímia i són molts en tanta
>>> varietat dialectal i intradialectal. Això fa que, en comptes d'utilitzar en
>>> els diccionaris una etiqueta "v" o "vr", s'utilitza una etiqueta "alt", que
>>> fa que una paraula (o terminació) pertanyi només a una varietat, sense que
>>> sigui visible per a les altres. Això multiplica el nombre de línies en els
>>> diccionaris. Tot plegat fa que els temps de compilació ja són enormes i
>>> encara ho seran més quan afegim el provençal i el llemosí, que són els
>>> següents de la llista. Per això estem pensant d'introduir el sistema noruec
>>> que, per una banda, dona més flexibilitat i, per altra, sembla que redueix
>>> el temps de compilació.
>>>
>>> Com ho teniu en el spa-cat? És difícil de fer el pas? Es triga gaire? Es
>>> guanya significativament en temps de compilació?
>>>
>>> Estem pensant de proposar fer aquest port com un projecte del Google
>>> Summer of Code. Us sembla raonable?
>>>
>>>
>> Hola Hèctor,
>>
>> Segurament Marc en podria parlar molt millor que jo, ja que ell és qui ha
>> fet tota la feina d'integració de preferències, però ací van unes quantes
>> coses.
>>
>> El sistema de preferències que ara mateix té apertium-cat dóna molta
>> flexibilitat per a certes coses, però no sé fins a quin punt resoldria el
>> problema principal que té l'occità, inherent a la complexitat de la mateixa
>> llengua. Ací [1] pots veure les preferències que hi ha ara mateixa
>> configurades.
>>
>> Com veus, són coses que van "a part" de les diferències lèxiques entre
>> les variants: cobreixen sobretot diferències ortogràfiques que, a més, es
>> poden combinar. Per exemple, abans teníem una un català per a les
>> universitats valencianes que utilitzava el "lèxic valencià", marcat com a
>> "val" als diccionaris (p.ex. espill en lloc de mirall), però utilitzava les
>> normés d'accentuació "catalanes" (cafè, anglès,...) i els accents
>> diacrítics post-reforma 2017. En canvi, la variant que féiem servir a
>> Softcatalà era també lèxic valencià, però normes d'accentuació valencianes
>> i diacrítics pre-reforma 2017. Després, estava la variant que volia la
>> Generalitat Valenciana: lèxic valencià i normes d'accentuació valencianes,
>> però diacrítics post-reforma. I topònims "oficials" (Orihuela per a textos
>> en valencià) enlloc del que la resta de variants valencianes feien servir
>> (Oriola). Tota eixa combinatòria feia que es generaren moltíssims
>> diccionaris de generació diferents (amb el seu temps de compilació
>> corresponent), per a cobrir tots els casos.
>>
>> Ara, en canvi, eixes coses es resolen sense diccionaris diferents: en
>> diferents moments de la pipeline (en aplicar el diccionari bilingüe, o
>> durant de la generació) es generen dues o més versions del que siga
>> (mirall/espill, o anglès/anglés, o vuit/huit, o...) i s'aplica un xicotet
>> fitxer de CG que resol l'ambigüitat, molt focalitzat en una cosa concreta.
>> Això fa que, a l'hora de compilar, només es compile un diccionari de
>> generació (molt més gros, això si), en lloc de vora 8 que n'hi havia abans.
>>
>> Una de les parts bones és que es pot fer de manera totalment incremental:
>> nosaltres vam crear primer que res una preferència al spa-cat per als
>> topònims (oficials vs tradicionals), i amb això vam resoldre una de les
>> dimensions que teníem, reduint el nombre de diccionaris compilats. En
>> canvi, la preferència del lèxic valencià encara no està (totalment)
>> integrada als diccionaris, per la qual cosa encara es compilen diccionaris
>> de generació diferents per al català i el valencià.
>>
>> Amb una desconeixença elevada de l'occità, el que jo recomanaria és
>> deixar de pensar tant en variants o dialectes i més en "característiques"
>> que puguen ser compartides pels diferents dialectes. Un bon exemple és la
>> preferència "motle" a l'apertium-cat: permet generar paraules com motle o
>> ametla vs motlle o ametlla, de forma totalment desacoblada de les variants
>> dialectals.
>>
>> Exemples podrien ser (si els articles sobre aranés a la Wikipedia són
>> correctes, i foren trets compartits entre dialectes), els plurals femenins
>> amb -es vs -as, o la lletra u/v intervocàlica per a paraules com aver/auer
>> (haver en català). Si eixes dues coses es modelen com a diferents
>> "preferències", en lloc de com a "variants dialectals" (ja siga amb alt o
>> amb vr o v), després es pot o bé combinar amb els diccionaris dialectals
>> existents, creant fitxers de preferències per a modes específics (ací pots
>> veure en què s'ha convertit el mode de valencià de la GVA [2]), o també
>> exposant-ho a les interfícies perquè l'usuari trie la combinació de
>> preferències que vol.
>>
>> Finalment, respecte a si paga la pena o no, segurament és algo que haureu
>> de considerar vosaltres. Una migració completa segurament requereix un
>> esforç molt significatiu. I potser no compensa la reducció del temps de
>> compilació. Però si (per exemple), el provençal i el llemosí es poden
>> modelar totalment com a un conjunt de característiques compartides (per
>> exemple X vs Y i J vs K, llenguadocià + llemosí fan X, mentre provençal fa
>> Y, però llenguadocià fa J mentre llemosí i provençal fan K), podeu
>> estalviar-vos totalment modelar això com a alt (o vr/v) i reduir els
>> diccionaris compilats.
>>
>> No sé si he ajudat massa... 😅
>>
>>
>> [1]
>> https://github.com/apertium/apertium-cat/blob/master/cat.preferences.xml
>> [2]
>> https://github.com/apertium/apertium-cat/blob/master/apertium-cat.cat_valencia_gva.prefs.rlx
>>
>> --
>> < Xavi Ivars >
>> < http://xavi.ivars.me >
>>
>
>
> Moltíssimes gràcies, Xavier, pels teus aclariments. Tanmateix, jo segueixo
> veient tres compilacions dels diccionaris cat, val_gva i val_uni a
> apertium-cat quan es toca el diccionari i altra vegada dels tres a
> apertium-spa-cat quan es toca el diccionari bilingüe. Això em despista molt
> perquè no veig bé què estan aportant les "característiques" quant a
> reducció de compilacions o del temps de compilació.
>
> Quant a les especificitats de l'occità amb relació al català a Apertium,
> jo diria que bàsicament són dues:
> 1) que no només les varietats són presents en la generació, sinó també en
> l'anàlisi (la qual cosa multiplica per dos les compilacions);
> i 2) que hi ha força més varietats que les tres bàsiques que actualment
> maneguem en català (gràcies al sistema tan enginyós que heu trobat per
> tractar el català pre- i post- reforma).
> Les dues coses fan que les compilacions dels diccionaris resultin molt
> importants per fer més operatiu el desenvolupament de l'occità a Apertium.
>
> Cordialment,
> Hèctor
>

_______________________________________________
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala

Re: [Apertium-catala] Sistema noruec en els diccionaris

Reply via email to