De moment l'única preferència totalment integrada, que elimina la necessitat de diccionaris extra és el pre/post reforma al monolingüe, i els topònims al bilingüe.
A mesura que la resta de coses s'integren completament a apertium-cat (ara mateix no sé exactament què falta, per exemple, entre val_uni i val_gva) podrem anar a dos (cat/val) o fins i tot només un (quan la preferència lexic_val estiga completa, però per a això segurament es tardarà prou més) -- Xavi Ivars < http://xavi.ivars.me > El dg., 18 de des. 2022, 20:26, Hèctor Alòs i Font <hectora...@gmail.com> va escriure: > Missatge de Xavi Ivars <xavi.iv...@gmail.com> del dia dg., 18 de des. > 2022 a les 20:17: > >> >> >> Missatge de Hèctor Alòs i Font <hectora...@gmail.com> del dia dt., 13 de >> des. 2022 a les 17:02: >> >>> Hola, >>> >>> En els diccionaris occitans són un embolic perquè hi ha un fum de >>> varietats i aquestes són francament diferents entre elles. A més, >>> l'ortografia no resolt ni un sol cas d'homonímia i són molts en tanta >>> varietat dialectal i intradialectal. Això fa que, en comptes d'utilitzar en >>> els diccionaris una etiqueta "v" o "vr", s'utilitza una etiqueta "alt", que >>> fa que una paraula (o terminació) pertanyi només a una varietat, sense que >>> sigui visible per a les altres. Això multiplica el nombre de línies en els >>> diccionaris. Tot plegat fa que els temps de compilació ja són enormes i >>> encara ho seran més quan afegim el provençal i el llemosí, que són els >>> següents de la llista. Per això estem pensant d'introduir el sistema noruec >>> que, per una banda, dona més flexibilitat i, per altra, sembla que redueix >>> el temps de compilació. >>> >>> Com ho teniu en el spa-cat? És difícil de fer el pas? Es triga gaire? Es >>> guanya significativament en temps de compilació? >>> >>> Estem pensant de proposar fer aquest port com un projecte del Google >>> Summer of Code. Us sembla raonable? >>> >>> >> Hola Hèctor, >> >> Segurament Marc en podria parlar molt millor que jo, ja que ell és qui ha >> fet tota la feina d'integració de preferències, però ací van unes quantes >> coses. >> >> El sistema de preferències que ara mateix té apertium-cat dóna molta >> flexibilitat per a certes coses, però no sé fins a quin punt resoldria el >> problema principal que té l'occità, inherent a la complexitat de la mateixa >> llengua. Ací [1] pots veure les preferències que hi ha ara mateixa >> configurades. >> >> Com veus, són coses que van "a part" de les diferències lèxiques entre >> les variants: cobreixen sobretot diferències ortogràfiques que, a més, es >> poden combinar. Per exemple, abans teníem una un català per a les >> universitats valencianes que utilitzava el "lèxic valencià", marcat com a >> "val" als diccionaris (p.ex. espill en lloc de mirall), però utilitzava les >> normés d'accentuació "catalanes" (cafè, anglès,...) i els accents >> diacrítics post-reforma 2017. En canvi, la variant que féiem servir a >> Softcatalà era també lèxic valencià, però normes d'accentuació valencianes >> i diacrítics pre-reforma 2017. Després, estava la variant que volia la >> Generalitat Valenciana: lèxic valencià i normes d'accentuació valencianes, >> però diacrítics post-reforma. I topònims "oficials" (Orihuela per a textos >> en valencià) enlloc del que la resta de variants valencianes feien servir >> (Oriola). Tota eixa combinatòria feia que es generaren moltíssims >> diccionaris de generació diferents (amb el seu temps de compilació >> corresponent), per a cobrir tots els casos. >> >> Ara, en canvi, eixes coses es resolen sense diccionaris diferents: en >> diferents moments de la pipeline (en aplicar el diccionari bilingüe, o >> durant de la generació) es generen dues o més versions del que siga >> (mirall/espill, o anglès/anglés, o vuit/huit, o...) i s'aplica un xicotet >> fitxer de CG que resol l'ambigüitat, molt focalitzat en una cosa concreta. >> Això fa que, a l'hora de compilar, només es compile un diccionari de >> generació (molt més gros, això si), en lloc de vora 8 que n'hi havia abans. >> >> Una de les parts bones és que es pot fer de manera totalment incremental: >> nosaltres vam crear primer que res una preferència al spa-cat per als >> topònims (oficials vs tradicionals), i amb això vam resoldre una de les >> dimensions que teníem, reduint el nombre de diccionaris compilats. En >> canvi, la preferència del lèxic valencià encara no està (totalment) >> integrada als diccionaris, per la qual cosa encara es compilen diccionaris >> de generació diferents per al català i el valencià. >> >> Amb una desconeixença elevada de l'occità, el que jo recomanaria és >> deixar de pensar tant en variants o dialectes i més en "característiques" >> que puguen ser compartides pels diferents dialectes. Un bon exemple és la >> preferència "motle" a l'apertium-cat: permet generar paraules com motle o >> ametla vs motlle o ametlla, de forma totalment desacoblada de les variants >> dialectals. >> >> Exemples podrien ser (si els articles sobre aranés a la Wikipedia són >> correctes, i foren trets compartits entre dialectes), els plurals femenins >> amb -es vs -as, o la lletra u/v intervocàlica per a paraules com aver/auer >> (haver en català). Si eixes dues coses es modelen com a diferents >> "preferències", en lloc de com a "variants dialectals" (ja siga amb alt o >> amb vr o v), després es pot o bé combinar amb els diccionaris dialectals >> existents, creant fitxers de preferències per a modes específics (ací pots >> veure en què s'ha convertit el mode de valencià de la GVA [2]), o també >> exposant-ho a les interfícies perquè l'usuari trie la combinació de >> preferències que vol. >> >> Finalment, respecte a si paga la pena o no, segurament és algo que haureu >> de considerar vosaltres. Una migració completa segurament requereix un >> esforç molt significatiu. I potser no compensa la reducció del temps de >> compilació. Però si (per exemple), el provençal i el llemosí es poden >> modelar totalment com a un conjunt de característiques compartides (per >> exemple X vs Y i J vs K, llenguadocià + llemosí fan X, mentre provençal fa >> Y, però llenguadocià fa J mentre llemosí i provençal fan K), podeu >> estalviar-vos totalment modelar això com a alt (o vr/v) i reduir els >> diccionaris compilats. >> >> No sé si he ajudat massa... 😅 >> >> >> [1] >> https://github.com/apertium/apertium-cat/blob/master/cat.preferences.xml >> [2] >> https://github.com/apertium/apertium-cat/blob/master/apertium-cat.cat_valencia_gva.prefs.rlx >> >> -- >> < Xavi Ivars > >> < http://xavi.ivars.me > >> > > > Moltíssimes gràcies, Xavier, pels teus aclariments. Tanmateix, jo segueixo > veient tres compilacions dels diccionaris cat, val_gva i val_uni a > apertium-cat quan es toca el diccionari i altra vegada dels tres a > apertium-spa-cat quan es toca el diccionari bilingüe. Això em despista molt > perquè no veig bé què estan aportant les "característiques" quant a > reducció de compilacions o del temps de compilació. > > Quant a les especificitats de l'occità amb relació al català a Apertium, > jo diria que bàsicament són dues: > 1) que no només les varietats són presents en la generació, sinó també en > l'anàlisi (la qual cosa multiplica per dos les compilacions); > i 2) que hi ha força més varietats que les tres bàsiques que actualment > maneguem en català (gràcies al sistema tan enginyós que heu trobat per > tractar el català pre- i post- reforma). > Les dues coses fan que les compilacions dels diccionaris resultin molt > importants per fer més operatiu el desenvolupament de l'occità a Apertium. > > Cordialment, > Hèctor >
_______________________________________________ Apertium-catala mailing list Apertium-catala@lists.sourceforge.net https://lists.sourceforge.net/lists/listinfo/apertium-catala