[Apertium-catala] comparacions amb altres diccionaris

2017-07-20 Thread Jaume Ortolà i Font
Bon dia,

Ací he posat les comparacions que faig entre els diccionaris d'Apertium i
altres fonts.
https://github.com/jaumeortola/apertium-dicts

He fet comparacions de noms i adjectius en català, castellà i francès.
https://github.com/jaumeortola/apertium-dicts/tree/master/results

Els fitxers amb la marca "-diff" mostren les diferències entre els
diccionaris d'Apertium i els altres (el paradigma és diferent o no es troba
un paradigma adequat). Els fitxers sense "-diff" indiquen paraules que es
podrien afegir tal qual als diccionaris d'Apertium.

Faré una revisió i filtraré algunes paraules (sigles, superlatius
-íssim...) i afegiré en massa els adjectius i els noms al diccionari
català. Podeu mirar si això mateix es pot fer en altres llengües: castellà,
francès...

Salutacions,
Jaume Ortolà
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


[Apertium-catala] y medio / kay duono

2017-07-23 Thread Jaume Ortolà i Font
Hola,

Hi ha molts errors en la traducció esp>cat en frases com:

año y medio
tres veces y media

Ho he arreglat amb el codi següent en Constraint Grammar. Però he tocat una
cosa que sembla que afecta l'esperanto. Espere que aquesta solució es puga
generalitzar a altres llengües.

#SELECT:media_1 N IF (-3C Num) (-2 N) (-1 CnjCoo) (0 ("media")) ;
#SUBSTITUTE:media_2 ("media") ("media_duono") TARGET ("media") IF (-3C Num)
(-2 N) (-1 CnjCoo) (0 ("media")) ;
# dos veces y media > kaj duono

# dos veces y media; dos años y medio
SELECT:y_medio_adj A IF (-2 (n f)) (-1 CnjCoo) (0 ("medio")) (0 (adj f sg));
SELECT:y_media_adj A IF (-2 (n m)) (-1 CnjCoo) (0 ("medio")) (0 (adj m sg));
SUBSTITUTE:y_medio ("medio") ("medio¹") TARGET ("medio") IF (-2 (n f)) (-1
CnjCoo) (0 ("medio")) (0 (adj f sg));
SUBSTITUTE:y_media ("medio") ("medio¹") TARGET ("medio") IF (-2 (n m)) (-1
CnjCoo) (0 ("medio")) (0 (adj m sg));

He intentat fer-ho amb SELECT en compte de SUBSTITUTE, però aquesta entrada
(similar a la de mango) no em funciona en el diccionari d'espanyol, no sé
per què. Sabeu com s'hauria d'escriure?

  medimedio¹

Salutacions,
Jaume Ortolà
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


[Apertium-catala] gènere de "èmfasi"

2017-07-04 Thread Jaume Ortolà i Font
Ho escric ací perquè em pareix que estem fent i desfent.

"Èmfasi" en català és, en primera instància, masculí. En alguns
diccionaris, no en tots, també hi ha el gènere femení.

No ho podem deixar només en femení.

Crec que hauria de ser masculí en es>ca. I acceptar els dos gèneres en
ca>es, que en castellà esdevé sempre masculí.

Salutacions,
Jaume Ortolà
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] gènere de "èmfasi"

2017-07-05 Thread Jaume Ortolà i Font
El dia 5 de juliol de 2017 a les 21:30, Xavi Ivars 
ha escrit:

>
>> Càmera, model i vocal estan pràcticament en el mateix cas: ja existien
> com a mf al diccionari català, i ara estan afegits a més com a m o f.
>

Sí, jo també m'he fixat en això. Jo els vaig passar a noms mf fa poc, i
després em pareix que Gema els ha posat amb dues entrades diferents amb dos
paradigmes (com estarien en un diccionari convencional, per exemple: model
mf i model m). Crec que haurien de ser simplement mf i en castellà igual. A
més, els gèneres coincideixen en castellà i català.

El delta, la delta, el vocal, la vocal, el model, la model, etc.

"Èmfasi" amb l'últim canvi que vaig fer em sembla que ja estaria bé.

Jaume
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


[Apertium-catala] Presentació: Jaume Ortolà

2017-06-08 Thread Jaume Ortolà i Font
Bon dia,

Sóc nou en aquesta llista. Em presente. Em dic Jaume Ortolà, i estic
interessat a col·laborar en Apertium en els parells de traducció que
inclouen el català.

Tinc alguna experiència en Apertium, però no és sistemàtica. Sí que he
treballat molt en altres projectes relacionats amb el català: el corrector
LanguageTool en català [1], i unes eines per a generar diccionaris de
català en diferents formats [2].

Entrant ja en matèria, us explique una de les coses que he fet. He provat
de generar tots els adjectius que tinc en el diccionari en el format
d'Apertium. Funciona sense problemes. El resultat el teniu ací:
https://raw.githubusercontent.com/Softcatala/catalan-dict-to
ols/master/resultats/apertium/adj-languagetool-format-apertium.txt

En el diccionari monolingüe català d'Apertium ara hi ha uns 6.000
adjectius. Jo n'he generat 26.000, i n'han quedat 422 sense paradigma. Amb
alguns retocs aquests 422 es poden reduir prou. Però també n'hi ha molts
que són irregulars i que requeririen un paradigma propi nou en Apertium
(que podem generar automàticament). Hi ha alguna petita diferència en
l'organització dels paradigmes. Jo els augmentatius -íssim els tinc ara en
lemes separats.

Puc fer el mateix amb els noms. En altres categories gramaticals com els
verbs, en principi, no té tant d'interès, més enllà de comprovar
inconsistències entre diccionaris.

En castellà o en altres llengües, es podria intentar fer coses similars.

L'objectiu de tot això és automatitzar al màxim la introducció de paraules
noves en els diccionaris, de manera que puguem destinar el temps a la
revisió dels casos més difícils.

Salutacions,
Jaume Ortolà


[1] https://github.com/languagetool-org/languagetool
[2] https://github.com/Softcatala/catalan-dict-tools
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] Presentació: Jaume Ortolà

2017-06-08 Thread Jaume Ortolà i Font
El dia 8 de juny de 2017 a les 20:27, Xavi Ivars  ha
escrit:

> Fa vora un any ja vaig parlar amb Gema, Mikel i Fran per a explorar la
> possibilitat aquesta idea (que tu i jo havíem comentat a vegades), però
> probablement en aquell moment jo ho vaig plantejar de manera incorrecta:
> vaig proposar utilitzar el "catalan-dict-tools" com a font de
> l'apertium-cat, i que aquest últim fóra completament autogenerat. Crec que
> va ser Mikel el que va dir que això no era bona idea, ja que no volíem
> perdre l'habilitat de tindre un "apertium-cat" editable.
>
> Crec que la idea aquesta (si ho he entés bé) de fer una aportació puntual
> (o més en el futur, però de manera "controlada" i només quan faça falta)
> pot funcionar molt bé.
>

Sí, jo crec que es tracta d'això, d'afegir coses que falten o de fer
comprovacions. Cada aplicació té les seues necessitats i és molt difícil
que un sol diccionari servisca per a tot.


> Només un comentari: respecte als augmentatius -íssim, segurament el més
> fàcil seria fer un paradigma a Apertium per a gestionar-los (si cal).
>

En Apertium hi ha "bo" i "boníssim" dins d'un sol paradigma. En canvi, jo
els tinc en dos lemes separats. Crec que jo els puc fer dependre fàcilment
del mateix lema, i així minimitzem les diferències.


>  Ara el que caldria fer és el que comenta l'Hèctor: comprovar que els
> adjectius que ja estan a apertium-cat que també has generat tu siguen
> "iguals". No necessàriament que tinguen els mateixos paradigmes, sinó que
> el "lt-expand" és igual.
>

Entesos. Ara ho veig més clar. Una volta eliminada la diferència dels
superlatius, crec que hauria d'encaixar quasi tot, i trobaríem les
possibles incoherències entre diccionaris.


> També caldria veure quins adjectius introdueixen ambigüitat on no n'hi
> havia (per exemple, adjectius que coincideixen amb verbs/noms, i que les
> traduccions podrien ser diferents).
>
> Siga com siga, enhorabona!
>
> Saps d'algun diccionari "semblant" en castellà, anglès o francès? Sé que
> els diccionaris de LT no són tan complets com els de català, però no sé si
> tenen informació suficient per a fer això.
>

Pot servir qualsevol diccionari. Com més gran i de més qualitat, millor. Si
té les formes flexionades, ja tens una part de la feina feta. Si no les té,
doncs es poden crear seguint les regles de la llengua en qüestió. No hi ha
cap altre misteri. De dades disponibles, crec que se'n poden trobar de
sobra. Ara, segons la llengua pot ser més o menys costós d'elaborar.

Salut,
Jaume Ortolà
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] Presentació: Jaume Ortolà

2017-06-10 Thread Jaume Ortolà i Font
Aprofitant els mateixos scripts, he generat noms i adjectius del castellà a
partir del diccionari del corrector LanguageTool. Ací teniu els resultats:

https://github.com/jaumeortola/spanish-dict-tools/tree/maste
r/results/apertium

en Apertium -> en LT (i sense paradigma)
adjectius:6343 -> 18549 (383)
noms: 17513 -> 49452 (810)

Diferències:
https://github.com/jaumeortola/spanish-dict-tools/tree/master/tests-apertium

En les diferències es veuen petits errors en un diccionari i en l'altre, i
petites diferències de flexió.

En castellà, però, no faig jo mateix la flexió amb regles, cosa que en
català ens dóna un nivell de comprovació 'extra'.

En altres idiomes es pot fer igual, i hi ha bons diccionaris disponibles.
Per a la gent que treballa en francès-català, anglès-català, això pot ser
molt útil per a ajudar-los a introduir i verificar paraules noves. També
podem afegir-hi la creació de paradigmes que no existeixen.

Si concretem com ho volem usar, amb quines entrades i quines eixides i per
a quins idiomes, puc preparar scripts que siguen utilitzables fàcilment per
a qualsevol persona.

Salutacions,
Jaume Ortolà



El dia 9 de juny de 2017 a les 14:04, Jaume Ortolà i Font <
jaumeort...@gmail.com> ha escrit:

> Bon dia,
>
> Ací teniu les diferències entre el diccionari d'Apertium i el de
> Softcatalà en noms i adjectius:
>
> https://github.com/Softcatala/catalan-dict-tools/blob/master
> /tests-apertium/check-apertium-adj.txt
> https://github.com/Softcatala/catalan-dict-tools/blob/master
> /tests-apertium/check-apertium-nom.txt
>
> En adjectius:
> - Hi ha alguns errors en Apertium: azoïca, babau (falta babaua), biònices,
> convexs, endogenes, licies, nadives (per nadiues), nates (per nades),
> nucleïques, pertinaça, ronces (de ronc), submisses, trocaïques.
> - Falten alguns plurals en Apertium: bruscos, cancellerescos,
> caricaturescos, etc.
> - Hi ha diferents interpretacions d'alguns adjectius que poden ser
> invariants o no i algun altre detall.
>
> En noms:
> - Hi ha uns quants noms en el diccionari de Softcatalà que tenen dos lemes
> (masc. i fem.) que podrien estar en un sol lema. Això ho hem anat canviant,
> però encara en queden. Ho acabaré de canviar.
> - Errors en Apertium: afixs, alfalsos (pl. erroni d'alfals), annexs,
> baixs, bleixs, besllum [ha de ser fem. no masc.], burofaxs [crec que només
> pot ser burofaxos], burís [per burins], cadella [està amb cadell, però
> haurien de ser lemes separats], capricios [pl. incorrecte], carabiner
> [falta el femení], cartutxs, centelleigs [falta centellejos], comissos [és
> comisos, encara que existeix el verb decomissar], contrarellotge [falta el
> pl.], crucifixs, còrtex [falta el plural còrtexs], daltabaixs, detectiu
> [falta el fem. detectiva], dibuixs, verís [per verins], àntrax [falta el
> pl. àntraxs]...
> - Plurals diferents: aerocistos, amiloplastos... (són poc freqüents, però
> em pareix que són possibles), congostos, agostos, arrestos [són possibles
> les dues formes -sts, -stos]
> - Falta accentuació valenciana en Apertium (que s'ha afegit recentment):
> canapè, cupè.
>
> M'he quedat en la lletra D dels noms. Quan elimine els dobles lemes (masc.
> fem.) en el meu diccionari serà més fàcil veure les diferències.
>
> La solució dels errors en Apertium és tan senzilla com canviar el
> paradigma pel que he calculat jo on es considere oportú.
>
> Salutacions,
> Jaume Ortolà
>
>
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] Presentació: Jaume Ortolà

2017-06-09 Thread Jaume Ortolà i Font
Bon dia,

Ací teniu les diferències entre el diccionari d'Apertium i el de Softcatalà
en noms i adjectius:

https://github.com/Softcatala/catalan-dict-tools/blob/master
/tests-apertium/check-apertium-adj.txt
https://github.com/Softcatala/catalan-dict-tools/blob/master
/tests-apertium/check-apertium-nom.txt

En adjectius:
- Hi ha alguns errors en Apertium: azoïca, babau (falta babaua), biònices,
convexs, endogenes, licies, nadives (per nadiues), nates (per nades),
nucleïques, pertinaça, ronces (de ronc), submisses, trocaïques.
- Falten alguns plurals en Apertium: bruscos, cancellerescos,
caricaturescos, etc.
- Hi ha diferents interpretacions d'alguns adjectius que poden ser
invariants o no i algun altre detall.

En noms:
- Hi ha uns quants noms en el diccionari de Softcatalà que tenen dos lemes
(masc. i fem.) que podrien estar en un sol lema. Això ho hem anat canviant,
però encara en queden. Ho acabaré de canviar.
- Errors en Apertium: afixs, alfalsos (pl. erroni d'alfals), annexs, baixs,
bleixs, besllum [ha de ser fem. no masc.], burofaxs [crec que només pot ser
burofaxos], burís [per burins], cadella [està amb cadell, però haurien de
ser lemes separats], capricios [pl. incorrecte], carabiner [falta el
femení], cartutxs, centelleigs [falta centellejos], comissos [és comisos,
encara que existeix el verb decomissar], contrarellotge [falta el pl.],
crucifixs, còrtex [falta el plural còrtexs], daltabaixs, detectiu [falta el
fem. detectiva], dibuixs, verís [per verins], àntrax [falta el pl.
àntraxs]...
- Plurals diferents: aerocistos, amiloplastos... (són poc freqüents, però
em pareix que són possibles), congostos, agostos, arrestos [són possibles
les dues formes -sts, -stos]
- Falta accentuació valenciana en Apertium (que s'ha afegit recentment):
canapè, cupè.

M'he quedat en la lletra D dels noms. Quan elimine els dobles lemes (masc.
fem.) en el meu diccionari serà més fàcil veure les diferències.

La solució dels errors en Apertium és tan senzilla com canviar el paradigma
pel que he calculat jo on es considere oportú.

Salutacions,
Jaume Ortolà
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


[Apertium-catala] corregint paradigmes

2017-09-17 Thread Jaume Ortolà i Font
Bon dia,

Com sabeu, quan ampliem els diccionaris introduïm molts errors. Mireu, per
exemple, alguns errors dels últims dies en català i castellà [1][2].

Aquests errors els he trobat comparant amb altres diccionaris (els del
corrector LanguageTool).

Hi ha la possibilitat d'introduir directament totes les paraules d'aquests
altres diccionaris en els monolingües d'Apertium. De moment no ho he fet
per algunes raons:

- Els adjectius superlatius (-íssim) no es tracten igual en els dos
diccionaris. Es pot arreglar, però no està fet del tot.
- En el diccionari català de LanguageTool queden molts noms amb forma
masculina i femenina que no comparteixen lema. Convindria arreglar-ho, però
és laboriós.
- Els diccionaris de LanguageTool poden contenir errors, i la manera més
probable de trobar-los (o quasi l'única) és comparant amb altres fonts.

En tot cas les llistes de noms i adjectius (en cat, spa, fra, eng), amb el
paradigma d'Apertium ja assignat, les teniu ací [3], per a agafar-los
directament o per a comparar amb els que genereu vosaltres.

Salutacions,
Jaume Ortolà

[1] https://apertium.projectjj.com/trac/changeset?reponame==82546%
40languages%2Fapertium-cat=82544%40languages%2Fapertium-cat
[2] https://apertium.projectjj.com/trac/changeset?reponame==82551%
40languages%2Fapertium-spa=82505%40languages%2Fapertium-spa
[3] https://github.com/jaumeortola/apertium-dicts
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] Criteris per (des)marcar paraules com a LR

2017-09-03 Thread Jaume Ortolà i Font
Si ens posem en la situació de traduir del castellà "a veces", el traductor
ha de triar entre diverses opcions: a vegades, de vegades, a voltes.

   avecesavegades
avecesdevegades
avecesavoltes

Si no m'equivoque, això vol dir que traduïm:

a veces > a vegades
a vegades, de vegades, a voltes > a veces

Jo vaig canviar fa poc la preferència de "de vegades" a "a vegades", perquè
és la forma que apareix primer en tots els diccionaris i la que té més
extensió geogràfica. En el monolingüe vaig fer això:
https://apertium.projectjj.com/trac/changeset?reponame==80898%40languages%2Fapertium-cat=80890%40languages%2Fapertium-cat

Ara, els LR o RL dels monolingües entenc que són una restricció "extra",
que pot ser-hi o no. És així?

El "LR" en "de vegades" és coherent amb la traducció que he esmentat, crec.
Però evidentment el "de vegades" és correcte, pot ser el resultat d'una
traducció, i per tant el LR s'hauria d'eliminar. Igual amb "a voltes".

Salutacions,
Jaume Ortolà


El dia 3 de setembre de 2017 a les 22:07, Hèctor Alòs i Font <
hectora...@gmail.com> ha escrit:

> De tant en tant em trobo paraules en el diccionari català que estan
> etiquetades com LR (i, a vegades, no ho estaven fins no fa gaire). Acabo de
> caure, per exemple, en "de vegades" i "nadó". Quin criteri es fa servir per
> decidir que no convé generar aquestes paraules? A mi em semblen
> absolutament normals i no hi veig cap indicació contrària al DIEC, per
> exemple. Quin problema hi ha si elimino els LR d'aquelles paraules que a mi
> em semblen normals i són al DIEC?
>
> 
> --
> Check out the vibrant tech community on one of the world's most
> engaging tech sites, Slashdot.org! http://sdm.link/slashdot
> ___
> Apertium-catala mailing list
> Apertium-catala@lists.sourceforge.net
> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>
>
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] numerals

2018-04-28 Thread Jaume Ortolà i Font
Bon dia,

He fet els canvis en la línia del que deia en aquest missatge. Espero que
afectin molt poc o gens els altres parells. Si hi ha algun problema, en
parlem.

Salutacions,
Jaume Ortolà


El dia 25 d’abril de 2018 a les 20:32, Jaume Ortolà i Font <
jaumeort...@gmail.com> ha escrit:

> Bon dia,
>
> He vist que hi havia una petita incongruència en els numerals en català,
> que provocava un error en la traducció spa<>cat. Ho hem parlat ací Marc i
> jo.
>
> https://github.com/apertium/apertium-cat/commit/b96379675c5b
> f59c69752b9db031a865aa764eb8
>
> Mirem quins canvis podem fer que creïn els mínims problemes possibles als
> diferents parells de traducció.
>
> El canvi mínim requerit per al català-castellà és que es puguin
> diferenciar cardinals i ordinals.
>
> "cinquanta-un/a" vs.   "cinquanta-u"
> "cinquanta-dos/dues"  vs.   "cinquanta-dos"
>
> Donant-hi voltes crec que he trobat una solució "mínima", si no volem
> començar a etiquetar ordinals i cardinals (ens hauríem d'inventar etiquetes
> noves?). Pot estar tot etiquetat com a "numeral", i quan es vulgui la forma
> ordinal s'ha de demanar la forma "mf sp".
>
> Els casos típics serien:
>
> cinquanta-u num mf sp (ordinal)
> cinquanta-un num m sp
> cinquanta-una num f sp
>
> cinquanta-dos num mf sp  (ordinal) (potser r="RL", només síntesi)
> cinquanta-dos num m sp
> cinquanta-dues num f sp
>
> cinquanta-tres num mf sp (ordinal i cardinal)
>
> cinquanta-un mil num mf sp  (ordinal) (potser r="RL", només síntesi)
> cinquanta-un mil num m sp
> cinquanta-una mil num f sp
>
> Amb això n'hi hauria prou per a forçar l'ordinal en casos com: pàgina
> dos, pàgina cinquanta-u, etc.
>
> Els canvis de gènere s'han de resoldre en els diccionaris bilingües segons
> cada llengua. Això és inevitable.
>
> Per una altra part, tenim els ordinals primer, segon..., cinquanta-unè...
> Es podrien etiquetar com a adjectius ordinals. Però sembla que no existeix
> aquesta etiqueta. La podem crear? Per a mi no és una prioritat.
>
> Finalment, hi ha els numerals com a noms. Ara no els tenim. Se'n podrien
> introduir uns quants, per exemple de l'u al 10 o al 20: l'u, els uns, el
> dos, els dosos, el tres, els tresos, etc.
>
> Una altra cosa del castellà és que s'usa "cincuenta y un" en lloc de 
> "cincuenta
> y uno" si va davant de nom. Per tant, té sentit posar "cincuenta y un"
> com a determinant diferent del numeral "cincuenta y uno". Per a aconseguir
> el mateix efecte en la traducció cat<>spa segurament cal duplicar
> "cinquanta-un" en català com a determinant. Crec que la confusió ha vingut
> d'aquí: de voler imitar en català el model castellà i no fer-ho bé del tot.
>
> Jaume
>
>
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] Sigles

2018-05-15 Thread Jaume Ortolà i Font
Es veu que l'apostrofació de sigles va per regles (que pel que he vist són
raonables), però a més a més cal que les paraules estiguen com no
invariables. S'ha de posar així, amb doble entrada:

https://github.com/apertium/apertium-cat/commit/
280b7527104c06c312a5fd848d8020ff31de513b

Salutacions,
Jaume Ortolà


El dia 15 de maig de 2018 a les 14:20, Donís Seguí 
ha escrit:

> Bon dia,
>
> Hui hem estat comentant ací el tema de les sigles. Hem observat que hi ha
> algunes sigles, com ara FMI i NBA (les dues bastant comunes), que no les
> tradueix bé, ja que no les apostrofa.
>
> Hem estat mirant en les bases i hi ha coses que no veiem clares.
>
> *NBA*, en català i espanyol, correspon a "BBC__N" i, tanmateix, però no
> l'apostrofa en català.
>
> FMI, tant en català com en espanyol, va assignada al paradigma "BBVA__n",
> però en català no l'apostrofa. Tanmateix, *FMNL*, també del  al paradigma
> "BBVA__n", sí que l'apostrofa en català.
>
> No entenem per què aquestes sigles són del paradigma "BBVA__n", que no
> s'apostrofa, i tanmateix, sí que les apostrofa, tot i que BBVA no
> s'apostrofa, evidentment. Sí que hi ha altres paradigmes com "IRPF__n" i
> ATS que sí que permeten apostorfar.
>
> Quan vaig començar a treballar la base del nou Salt, Gema, de Prompsit, em
> va demanar una llista de sigles. Jo li vaig preparar una taula en Excel i
> separada entre les que apostrofen i les que no (la tinc disponible, per si
> algú la necessita. El que no veig clar és que sembla que les sigles estan
> assignades a cada paradigma segons el gènere i nombre, però no per si
> apostrofen o no.
>
> De tota manera, podem saber per què no apostrofa NBA i FMI?
>
> Hi ha altres sigles, com NFC, assignada a "ATS__n", però no la tradueix
> perquè no està en el monolingüe castellà.
>
> TAmbé hi ha altres sigles que estan tractades com a antropònims, en
> l'apartat "altres"
>
>
> Donís
>
> 
> --
> Check out the vibrant tech community on one of the world's most
> engaging tech sites, Slashdot.org! http://sdm.link/slashdot
> ___
> Apertium-catala mailing list
> Apertium-catala@lists.sourceforge.net
> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>
>
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] El mismo

2018-05-17 Thread Jaume Ortolà i Font
Donís,

Tal com havia dit he desactivat el canvi "el mismo=aquest".

Ací es veuen totes les diferències que s'han produït en el DOGV sencer del
2017:
http://riuraueditors.cat/tests/spa-dogv2017-cat_valencia.html

La veritat és que en llenguatge administratiu hi ha moltíssims casos en què
cal fer el canvi "el mateix>aquest". Podríem intentar fer-ho en alguns
casos controlats (del mismo, contra la misma, etc.), però sempre hi ha el
risc de fer-ho on no s'hauria de fer (sobretot en llenguatge més informal o
parlat: "Jo en vull de la mateixa."). Tenint en compte el llenguatge
administratiu i la Viquipèdia són usos majoritaris del traductor potser sí
que val la pena intentar-ho.

Salutacions,
Jaume Ortolà


El dia 16 de maig de 2018 a les 13:04, Jaume Ortolà i Font <
jaumeort...@gmail.com> ha escrit:

> Donís,
>
> Tens raó. No està ben resolt.
>
> A més, alguns casos comuns de "el mismo" que sí caldria canviar no es
> canvien: "A consecuencia del mismo." > "A conseqûència *del mateix."
>
> Per tant, jo faria per defecte "mismo = mateix". I, a part, intentaria
> detectar algun dels casos en què cal canviar-ho. Crec que la majoria dels
> que cal canviar són "preposició + 'mismo' + signe de puntuació o final de
> frase".
>
> Salutacions,
> Jaume Ortolà
>
>
> El dia 16 de maig de 2018 a les 12:48, Donís Seguí <donisse...@gmail.com>
> ha escrit:
>
>> Bon dia,
>>
>> Hem detectat uns errors que fa l'Apertium pel que fa a "el mismo" "la
>> misma".
>>
>> Us passe el que hem preparat:
>>
>>
>> Apertium tradueix “el mismo” i tota la flexió per “aquest, aquesta,
>> aquests, aquestes”, tant quan funciona com a adjectiu com quan fa la funció
>> de pronom.
>>
>> Pensem que això és molt perillós que ho faça sistemàticament, ja que,
>> quan es tracta d’un adjectiu, “el mismo” i la flexió s’han de traduir per
>> “el mateix, la mateixa...”
>>
>> Suposem que la raó per la qual han optat per fer aquesta traducció és per
>> evitar la traducció del pronom “el mismo”, i flexió, per “el mateix”, i
>> flexió, que en valencià és incorrecte, com ara:
>>
>> *El ajuar familiar quedará exceptuado de la valoración del patrimonio,
>> salvo que en **el mismo **existan bienes de valor excepcional.*
>>
>> *L’**ai**xovar familiar quedarà exceptuat de la valoració del patrimoni,
>> llevat que en **aquest** existisquen béns de valor excepcional.*
>>
>> *En el caso de existencia de relaciones permanentes análogas a la
>> conyugal, **la misma** será acreditada en cualquiera de las formas
>> siguientes.*
>>
>> *En cas d’existència de relacions permanents anàlogues a la conjugal, *
>> *aquesta** serà acreditada en qualsevol de les formes següents.*
>>
>> En canvi, trobem molts altres casos en què “el mismo”, i flexió,
>> funcionen com a adjectius, i amb aquesta traducció canvia totalment el
>> significat que li han donat en l’original castellà. Per exemple:
>>
>> *Las* *entidades sin ánimo de lucro inscritas en el Registro de
>> Titulares de Actividades de Acción Social* *ostentarán **los mismos**
>> derechos y obligaciones que las personas titulares de estas prestaciones.*
>>
>> *Les entitats sense ànim de lucre inscrites en el Registre de Titulars
>> d’Activitats d’Acció Social tindran **aquests** drets i obligacions que
>> les persones titulars d’aquestes prestacions.*
>>
>> *La dirección territorial competente dictará resolución en **los mismos**
>> términos previstos en el párrafo anterior.*
>>
>> *La direcció territorial competent dictarà resolució en **aquests**
>> termes previstos en el paràgraf anterior.*
>>
>> En aquests últims exemples podem detectar l’error fàcilment. En canvi,
>> hi ha casos en què quan en el text traduït llegim “aquest, aquesta,
>> aquests, aquestes” no veiem res estrany i, si no mirem l’original, no podem
>> saber que volien dir “el mismo, la misma...”. Per exemple:
>>
>> *La dirección territorial realizará en **la misma** nómina ambos
>> procedimientos.*
>>
>> *La direcció territorial realitzarà en **aquesta** nòmina tots dos
>> procediments.*
>>
>> *La misma** consecuencia se derivará de una extinción asociada a los
>> supuestos de suspensión previstos en los apartados g) y h) del artículo 55
>> de este decreto.*
>>
>> * A**questa** conseqüència es derivarà d’una extinció associada als
>> supòsits de suspensió previstos en els apartats g) i h) de l’article 55
>> d’aquest decret.*
>>
>>
>> Què n'opineu?
>>
>

Re: [Apertium-catala] El mismo

2018-05-16 Thread Jaume Ortolà i Font
Donís,

Tens raó. No està ben resolt.

A més, alguns casos comuns de "el mismo" que sí caldria canviar no es
canvien: "A consecuencia del mismo." > "A conseqûència *del mateix."

Per tant, jo faria per defecte "mismo = mateix". I, a part, intentaria
detectar algun dels casos en què cal canviar-ho. Crec que la majoria dels
que cal canviar són "preposició + 'mismo' + signe de puntuació o final de
frase".

Salutacions,
Jaume Ortolà


El dia 16 de maig de 2018 a les 12:48, Donís Seguí 
ha escrit:

> Bon dia,
>
> Hem detectat uns errors que fa l'Apertium pel que fa a "el mismo" "la
> misma".
>
> Us passe el que hem preparat:
>
>
> Apertium tradueix “el mismo” i tota la flexió per “aquest, aquesta,
> aquests, aquestes”, tant quan funciona com a adjectiu com quan fa la funció
> de pronom.
>
> Pensem que això és molt perillós que ho faça sistemàticament, ja que, quan
> es tracta d’un adjectiu, “el mismo” i la flexió s’han de traduir per “el
> mateix, la mateixa...”
>
> Suposem que la raó per la qual han optat per fer aquesta traducció és per
> evitar la traducció del pronom “el mismo”, i flexió, per “el mateix”, i
> flexió, que en valencià és incorrecte, com ara:
>
> *El ajuar familiar quedará exceptuado de la valoración del patrimonio,
> salvo que en **el mismo **existan bienes de valor excepcional.*
>
> *L’**ai**xovar familiar quedarà exceptuat de la valoració del patrimoni,
> llevat que en **aquest** existisquen béns de valor excepcional.*
>
> *En el caso de existencia de relaciones permanentes análogas a la
> conyugal, **la misma** será acreditada en cualquiera de las formas
> siguientes.*
>
> *En cas d’existència de relacions permanents anàlogues a la conjugal, *
> *aquesta** serà acreditada en qualsevol de les formes següents.*
>
> En canvi, trobem molts altres casos en què “el mismo”, i flexió,
> funcionen com a adjectius, i amb aquesta traducció canvia totalment el
> significat que li han donat en l’original castellà. Per exemple:
>
> *Las* *entidades sin ánimo de lucro inscritas en el Registro de Titulares
> de Actividades de Acción Social* *ostentarán **los mismos** derechos y
> obligaciones que las personas titulares de estas prestaciones.*
>
> *Les entitats sense ànim de lucre inscrites en el Registre de Titulars
> d’Activitats d’Acció Social tindran **aquests** drets i obligacions que
> les persones titulars d’aquestes prestacions.*
>
> *La dirección territorial competente dictará resolución en **los mismos**
> términos previstos en el párrafo anterior.*
>
> *La direcció territorial competent dictarà resolució en **aquests**
> termes previstos en el paràgraf anterior.*
>
> En aquests últims exemples podem detectar l’error fàcilment. En canvi, hi
> ha casos en què quan en el text traduït llegim “aquest, aquesta, aquests,
> aquestes” no veiem res estrany i, si no mirem l’original, no podem saber
> que volien dir “el mismo, la misma...”. Per exemple:
>
> *La dirección territorial realizará en **la misma** nómina ambos
> procedimientos.*
>
> *La direcció territorial realitzarà en **aquesta** nòmina tots dos
> procediments.*
>
> *La misma** consecuencia se derivará de una extinción asociada a los
> supuestos de suspensión previstos en los apartados g) y h) del artículo 55
> de este decreto.*
>
> * A**questa** conseqüència es derivarà d’una extinció associada als
> supòsits de suspensió previstos en els apartats g) i h) de l’article 55
> d’aquest decret.*
>
>
> Què n'opineu?
>
> Donís
>
> 
> --
> Check out the vibrant tech community on one of the world's most
> engaging tech sites, Slashdot.org! http://sdm.link/slashdot
> ___
> Apertium-catala mailing list
> Apertium-catala@lists.sourceforge.net
> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>
>
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


[Apertium-catala] publicar una nova versió del parell spa-cat

2018-05-29 Thread Jaume Ortolà i Font
Bon dia,

Durant els últims mesos hem fet moltes millores en el parell spa-cat.
Darrerament hem fet també molts tests, i hem arribat a un punt d'una certa
estabilitat.

Crec que ja es podria publicar una nova versió oficial, de manera que es
puguen aprofitar les millores en diferents plataformes (per exemple, en el
traductor de la Wikipedia). Qui ho hauria de fer, això?

Salutacions,
Jaume Ortolà
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


[Apertium-catala] Fwd: Tests Apertium Softcatalà

2018-06-04 Thread Jaume Ortolà i Font
Bon dia,

Hem creat uns tests per al parell spa-cat, que s'executen cada dia en un
servidor de Softcatalà. En els corpus hi ha 24 milions de paraules en
català, i 35 milions en castellà. El que és mostra en els resultats són les
diferències entre les traduccions. La idea dels tests l'hem copiada dels
que fem en LanguageTool.

Ací baix teniu els enllaços als tests d'avui. Com podreu veure, alguns
canvis són desitjats i altres no, i els tests ajuden a detectar-los
fàcilment.

També podeu veure els tests de dies anteriors ací:
https://www.softcatala.org/apertium/differences/

Ara podem enviar cada dia el missatge a aquesta llista, o bé enviar-lo
només als qui hi estigueu interessats.

Salutacions,
Jaume Ortolà


-- Forwarded message --
From: Jaume Ortolà 
Date: 2018-06-04 13:50 GMT+02:00
Subject: Tests Apertium Softcatalà
To: jaumeort...@gmail.com


Resultats dels tests

cat-dogv2017-spa (5588): https://www.softcatala.org/ape
rtium/differences/20180604/cat-dogv2017-spa.html
cat-wiki-spa (30271): https://www.softcatala.org/ape
rtium/differences/20180604/cat-wiki-spa.html
spa-dogv2017-cat (230354): https://www.softcatala.org/ape
rtium/differences/20180604/spa-dogv2017-cat.html
spa-dogv2017-cat_valencia (88458): https://www.softcatala.org/ape
rtium/differences/20180604/spa-dogv2017-cat_valencia.html
spa-europarl-cat (1424411): https://www.softcatala.org/ape
rtium/differences/20180604/spa-europarl-cat.html
spa-europarl-cat_valencia (453313): https://www.softcatala.org/ape
rtium/differences/20180604/spa-europarl-cat_valencia.html
spa-wiki-cat (676391): https://www.softcatala.org/ape
rtium/differences/20180604/spa-wiki-cat.html
spa-wiki-cat_valencia (403724): https://www.softcatala.org/ape
rtium/differences/20180604/spa-wiki-cat_valencia.html
testvoc.cat-spa.txt (284468): https://www.softcatala.org/ape
rtium/differences/20180604/testvoc.cat-spa.txt.html
testvoc.spa-cat.txt (25289): https://www.softcatala.org/ape
rtium/differences/20180604/testvoc.spa-cat.txt.html
testvoc.spa-cat_valencia.txt (67381): https://www.softcatala.org/ape
rtium/differences/20180604/testvoc.spa-cat_valencia.txt.html
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] Consulta

2018-06-23 Thread Jaume Ortolà i Font
Mikel,

Com que hi ha d'haver article en les dues llengües (a diferència de
Marruecos<>el Marroc), jo crec que val més entrar el topònim com a "Molí
Mató". Així si no hi ha article, també es farà la traducció.

Si no, crec que s'han de fer entrades com aquestes en els dos monolingües:

elMontmell
elMontmellelMontmell

La majoria d'aquestes entrades em pareix que no funcionen bé: estan ben
fetes en el monolingüe cat, però no en el monolingüe spa.

Salutacions,
Jaume Ortolà



Missatge de Mikel L. Forcada  del dia ds., 23 de juny 2018
a les 18:03:

> Bon dia i bona revetla:
>
> He intentat afegir el topònim "el Molí Mató" (una font de la Serra de
> Mariola) però no sé com fer-ho perquè en castellà es permeta "del Molí
> Mató" i en català "del Molí Mató". Fa temps que ho sabia fer, això, però
> ara no me'n recorde. Algú em pot ajudar?+
>
> He fet un commit i voreu l'intent. He copiat altres entrades similars,
> que potser tampoc funcionen.
>
> Moltes gràcies
>
> Mikel
>
> --
> Mikel L. Forcada  http://www.dlsi.ua.es/~mlf/
> Departament de Llenguatges i Sistemes Informàtics
> Universitat d'Alacant
> E-03690 Sant Vicent del Raspeig
> Spain
> Office: +34 96 590 9776
>
>
>
> --
> Check out the vibrant tech community on one of the world's most
> engaging tech sites, Slashdot.org! http://sdm.link/slashdot
> ___
> Apertium-catala mailing list
> Apertium-catala@lists.sourceforge.net
> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] Consulta

2018-06-23 Thread Jaume Ortolà i Font
Missatge de Mikel L. Forcada  del dia ds., 23 de juny 2018
a les 19:37:

> Hi vaig pensar. Però vaig pensar que permetre que un topònim tinguera un
> article davant podia fer descarrilar el _tagger_ (per a exemples de
> _tagger_ descarrilat per la introducció massiva de noms propis, seguiu
> Aixeque_EMV en Twitter.
>
> No hi ha una solució estàndard?
>

Jo no veig cap problema amb l'article i el topònim. El problema ve quan no
està com a nom propi. En el cas concret de Mató, com que és un cognom, el
podríem entrar com a cognom i ja està.

Sobre la qüestió dels noms propis estil Gerard Piqué > Gerard Va picar, hem
fet algunes regles que redueixen substancialment els errors.

cat-spa abans: Joan Mató > Joan Requesón; ara: Joan *Mató
spa-cat abans: Joan Mató> Joan Va matar; ara: Joan *Mató

Són regles amb l'estructura: "antropònim + paraula en majúscula". Podríem
afegir-hi regles de l'estil "accident geogràfic + paraula en majúscula".

Però aquestes regles no es poden forçar massa, perquè també hi ha noms
comuns que s'escriuen en majúscula i moltes voltes s'han de traduir. En el
cas de Mató, per exemple: "Associació de Fabricants de Mató". Aquí ja
entrem en un terreny molt difícil de resoldre.

Jaume
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] Per/Per a + inf

2018-06-30 Thread Jaume Ortolà i Font
Bon dia,

Això es deu a canvis que vaig fer jo. La raó principal dels canvis no era
el "per + infinitiu", sinó que la traducció de "para" estava molt mal
plantejada i mal resolta. Es traduïa "para" sempre per "per", i només
excepcionalment davant de determinats grups nominals "per a". Això donava
molts errors: "per la qual" en comptes de "per a la qual", "per ell" en
comptes de "per a ell", etc.

Si es volgués aplicar la regla de Coromines, de fer servir sempre "per"
davant d'infinitiu, la manera més neta ara mateix seria afegir la
possibilitat de treballar amb variants en els fitxers "metalrx".

Personalment sóc contrari a aquesta regla, sobretot perquè fa perdre el
significat de les preposicions als parlants. Fins i tot els qui havien
programat l'Apertium s'havien confós completament i havien fet un nyap!

Sobre qui decideix qüestions estilístiques com aquestes, suposo que quan hi
ha algú que paga una feina en el traductor indica les seves preferències i
s'apliquen sense qüestionar-les.

Salutacions,
Jaume Ortolà












Salutacions,
Jaume Ortolà



Missatge de Hèctor Alòs i Font  del dia ds., 30 de
juny 2018 a les 14:22:

> Mentre provava algunes paraules noves per incloure al parell cat-spa, que
> estic fent servir com a usuari, m'adono que de spa a cat en generar la
> varietat "cat" ara es genera "per a" davant d'infinitiu, quan abans es
> generava "per". No és que sigui cap defensor de l'ús d'una forma o altra,
> però em sorprèn el canvi de criteri. Per curiositat, qui decideix aquests
> canvis?
>
> Cordialment,
> Hèctor
>
> --
> Check out the vibrant tech community on one of the world's most
> engaging tech sites, Slashdot.org! http://sdm.link/slashdot
> ___
> Apertium-catala mailing list
> Apertium-catala@lists.sourceforge.net
> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] tractament de noms propis

2018-04-30 Thread Jaume Ortolà i Font
El dia 30 d’abril de 2018 a les 19:59, Hèctor Alòs i Font <
hectora...@gmail.com> ha escrit:

> He posat aquestes regles a apertium-cat i les he provades traduint al
> francès un corpus de 20.000 frases de la Viquipèdia catalana triades a
> l'atzar. El resultat és que feia malbé les xifres romanes darrere dels noms
> de reis, papes i aviram del ram (i les regles de selecció lèxica associades
> al tema). He afegit un pedaç per què les regles no s'apliquin amb els
> números romans:
>

Gràcies per provar-ho.

Això dels números romans en spa-cat no passa perquè es marquen com a .
En el fra-cat veig que es marquen com a adjectius.


> SUBSTITUTE:nom_propi1 (".*"r) ("\\*$1"v) TARGET ("<(.*)>"r) IF (-1C (ant))
> (0C Verb OR N OR A) (0 MajIni) (NOT 0 segles_num_romans);
> #Posa com a lema la forma de la paraula marcada amb *
> # Amb els adjectius hi ha més risc d'error (!)
> REPLACE:nom_propi2 (np) Verb OR N OR A IF (-1C (ant)) (0C Verb OR N OR A)
> (0 MajIni) (NOT 0 segles_num_romans);  # Això no sé si és útil.
>
> Després d'això, he tornat a traduir el corpus i comparar amb la traducció
> feta abans del canvi i no he trobat cap diferència. És a dir, no s'ha fet
> res malbé, però també no s'ha arreglat res. Evidentment, en un corpus
> periodístic amb més cognoms del país seria una altra historia. Cal dir
> també que el el diccionari català tenim els 5000 cognoms més freqüents a
> Catalunya extrets de l'IDESCAT. Això dóna més garanties en traduccions des
> del català, especialment de textos del Principat.
>

Jo crec que serà útil. En spa-cat passa molt. Acabo de passar un llista de
500 persones de València (nom i 2 cognoms) i ixen 31 cognoms susceptibles
d'haver estat "traduïts" spa>cat.

Però ara tinc un problema. He intenta fer el mateix cat>spa i veig que la
regla no fa absolutament res (Joan Taronger > Joan Naranjo; quan s'espera
Joan *Taronger). No sé què pot ser. Alguna cosa de configuració? Algú ho
pot provar?

Jaume


>
> El dia 30 d’abril de 2018 a les 11:30, Jaume Ortolà i Font <
> jaumeort...@gmail.com> ha escrit:
>
>> Bon dia,
>>
>> He fet una petita prova, i de moment és prou satisfactòria. He posat en
>> el fitxer CG spa:
>>
>> SUBSTITUTE:nom_propi1 (".*"r) ("\\*$1"v) TARGET ("<(.*)>"r) IF (-1C
>> (ant)) (0C Verb OR N OR A) (0 MajIni);
>> #Posa com a lema la forma de la paraula marcada amb *
>> # Amb els adjectius hi ha més risc d'error (!)
>> REPLACE:nom_propi2 (np) Verb OR N OR A IF (-1C (ant)) (0C Verb OR N OR A)
>> (0 MajIni);  # Això no sé si és útil.
>>
>> Com a resultat tenim spa-cat:
>>
>> Mónica *Naranjo   (era Mónica Taronger)
>> Alberto *Isla  (era Alberto Illa)
>> Juana *Corredera (era Juana Corredissa)
>> Enric *Morera   (era Enric Morera)
>> Moratal *Sastre(era Moratal Sastre)
>>
>> Com veieu, evitem traduir Naranjo, Isla i Corredera, i també Morera i
>> Sastre. Però aquests últims en la traducció spa-cat eixien bé perquè
>> casualment la traducció spa-cat coincideix; en altres idiomes hauria donat
>> errors. També es pot forçar un @ en comptes de *. Però així crec que és
>> millor.
>>
>> Per a mi, aquest és el comportament ideal. No caldria res més. Ara
>> hauríem de fer més proves, i afegir alguna regla més per a contexts
>> semblants.
>>
>> Salutacions,
>> Jaume Ortolà
>>
>>
>> El dia 24 d’abril de 2018 a les 23:32, Jaume Ortolà i Font <
>> jaumeort...@gmail.com> ha escrit:
>>
>>> El dia 24 d’abril de 2018 a les 19:35, Hèctor Alòs i Font <
>>> hectora...@gmail.com> ha escrit:
>>>
>>>> De tota manera, afegir amb CG  una etiqueta especial o canviar
>>>> l'etiqueta que hi hagi sembla complicat:
>>>> - Caldrà fer alguna cosa a la banda final del "pipe" d'apertium per
>>>> poder generar el cognom sense que surti un #
>>>>
>>>
>>> Sí, això pensava. Entenc que Aperitum no permet generar res que no
>>> estigui definit en el diccionari de destinació. De totes maneres això seria
>>> un plus. De moment n'hi hauria prou evitant les falses traduccions  de
>>> l'estil "Antonio Taló > Antonio Va talar". Jo ja em conformaria que sortís
>>> "Antonio *Taló", si pogués ser.
>>>
>>> Jaume
>>>
>>>
>>>
>>>> - Si el que es faci de CG és general per al tots els traductors que
>>>> utilitzin, per exemple, apertium-spa, caldrà retocar tots els traductors
>>>> amb català llengua d'origen de la traducció (i l'equivalent per a
>>&

Re: [Apertium-catala] tractament de noms propis

2018-05-02 Thread Jaume Ortolà i Font
Reenvio el missatge d'Hèctor i responc.

El dia 2 de maig de 2018 a les 19:33, Hèctor Alòs i Font <
hectora...@gmail.com> ha escrit:

> He pogut fer la prova. Els resultats són negatius. És millor no incloure
> la regla per al català (per al castellà, no sé). Fa més mal que bé.
>
> En un corpus de 5000 frases aleatòries de la Viquipèdia i traduint del
> català al francès, només he vist una millora: per a "Luis Firmin". En canvi
> ha espatllat: Alexandre Magne, sant Miquel Arcàngel, RESPOSTA AL VISITANT
> ("Al + Visitant"), Via Francisca Superior, Sant Antoni Abat, Justí Màrtir.
>

> Més complicats i més o menys tan nombrosos són una sèrie de casos que
> tenen a veure amb la Viquipèdia. Un exemple típic d'aquest tipus és:
>
> Mereixedor l'any 1980 del Premi Lletra d'Or; l'any 1982 de la Premi Creu
> de Sant Jordi Creu de Sant Jordi
>
Aquí el problema és la segona Creu, que es marca amb * per ser darrere de
> Jordi: "Premi Creu de Sant Jordi *Creu de Sant Jordi". Per descomptat, la
> frase és agramatical. És el resultat de "desviquitzar" l'article de la
> Viquipèdia. En un cas real, amb Wikimedia, no sé ben bé què passa.
> M'imagino que la parafernàlia de [[ ]] dels hipervincles estarà amagada en
> superblancs i, realment, el traductor deu rebre "frases" d'aquesta mena amb
> successions estranyes com "Creu de Sant Jordi Creu de Sant Jordi" que
> trenquen els nostres intents de desambiguació morfològica/anàlisi
> sintàctica. És un tema a estudiar, que supera el problema que ara mateix
> estem tractant.
>
> En tot cas, si no tenim en compte aquests casos (tot i que segurament
> hauríem), per 1 cosa arreglada en tenim com a mínim 6 d'espatllades.
>
> Per això, com deia, millor no afegir els canvis en apertium-cat.cat.rlx.
> Seria qüestió de comentar les dues regles que vaig posar de prova fa dos o
> tres dies.
>
> Aconsellaria fer la mateixa prova amb un corpus real amb la Viquipèdia en
> castellà. És possible que passi una cosa semblant.
>
>
No faig la mateixa avaluació d'aquests resultats.  Més aviat al contrari:
els veig positius.

En un comentari del codi jo deia que incloure els adjectius en la regla era
més arriscat. Però veient els teus resultats m'inclino per deixar-los.

Si es tradueix un adjectiu (o un nom) que acompanya un nom propi i el
resultat és correcte, és més aviat sort. Mira els casos que t'han eixit. En
francès el més normal és dir "Alexandre le Grand" i "Antoine le Grand" en
comptes de "Alexandre Grand" i "saint Antoine Abbé". També veig en un text
francès "Via Francisca Superior" (sembla un topònim) i no pas "Via
Francisca Supérieure".  Crec que podem relativitzar, doncs, que s'hagin
"espatllat" aquestes traduccions. És al contrari: la regla t'avisa que
probablement no estan bé.

I com es tradueix "Justí Màrtir"? El nom no es tradueix i el cognom sí?
Sincerament crec que és molt millor trobar-se "Justí *Màrtir" (amb avís de
possible error) que no "Justí Martyr" (sense avís, que pot fer que passem
per alt que cal escriure "Justin Martyr"). Els noms històrics s'han de
traduir sencers, no parcialment. En el cas d'Alexandre el nom coincideix,
casualment, en català i en francès. En cat>spa, m'estimo molt més
"Alejandro *Magno" que "Alejandro Magne".

"Al Visitant" no s'hauria d'haver espatllat perquè, encara que "Al" estigui
com a nom propi, no és solament nom propi. Això ja m'ho havia trobat jo
("Al Banco Central le incumben..."), i hauria d'estar arreglat. En castellà
va bé, però veig que en català falla. No sé per què. S'haurà de fer algun
retoc a la regla.

Jo vaig passar el corpus del Parlament europeu sencer (60 milions de
paraules). Forçant que la regla pose @ en comptes de *, veig exactament on
actua. La regla evita traduir un grapat considerable de cognoms. Només vaig
trobar dos problemes relacionats amb el format i la puntuació:

Bienvenida  [Títol d'un apartat que coincideix amb
un nom propi de persona i s'enganxa amb la frase següent. Ja està resolt
per a aquesta paraula.]
*Quiero donar les gràcies a ...

Martínez de Bedoya- *Fondos de Cohesió [No entén el guió com a separador.
No està resolt.]

Jo de moment ho veig molt positiu. I crec que és important. Els traductors
automàtics ixen en la premsa i en els programes d'humor precisament per
aquestes coses, que tenen una solució raonable. Faré més proves amb text de
les wikipèdies catalana i espanyola.

Salutacions,
Jaume





> El dia 1 de maig de 2018 a les 19:22, Hèctor Alòs i Font <
> hectora...@gmail.com> ha escrit:
>
>> Dubto que això canviï res. Si canviés, voldria dir que la resta
>> d'expressions regulars que diferencien entre majúscules i mi

Re: [Apertium-catala] tractament de noms propis

2018-05-01 Thread Jaume Ortolà i Font
El dia 30 d’abril de 2018 a les 22:14, Jaume Ortolà i Font <
jaumeort...@gmail.com> ha escrit:

> Però ara tinc un problema. He intentat fer el mateix cat>spa i veig que la
> regla no fa absolutament res (Joan Taronger > Joan Naranjo; quan s'espera
> Joan *Taronger). No sé què pot ser. Alguna cosa de configuració? Algú ho
> pot provar?
>

He trobat el problema. Era això:

https://github.com/apertium/apertium-cat/commit/
e8ca41ca9bd86fead8246868c901a7e2dd386c55

Cal mirar les majúscules en la forma de la paraula, no en el lema, perquè
el lema de paraules comunes està en minúscules, almenys en el primer pas.
El lema de "Taronger" és "taronger" en morph.

Hèctor: ¿Pots tornar a fer el test cat>fra? La regla segurament no feia
res.

Jaume
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] tractament de noms propis

2018-04-30 Thread Jaume Ortolà i Font
Bon dia,

He fet una petita prova, i de moment és prou satisfactòria. He posat en el
fitxer CG spa:

SUBSTITUTE:nom_propi1 (".*"r) ("\\*$1"v) TARGET ("<(.*)>"r) IF (-1C (ant))
(0C Verb OR N OR A) (0 MajIni);
#Posa com a lema la forma de la paraula marcada amb *
# Amb els adjectius hi ha més risc d'error (!)
REPLACE:nom_propi2 (np) Verb OR N OR A IF (-1C (ant)) (0C Verb OR N OR A)
(0 MajIni);  # Això no sé si és útil.

Com a resultat tenim spa-cat:

Mónica *Naranjo   (era Mónica Taronger)
Alberto *Isla  (era Alberto Illa)
Juana *Corredera (era Juana Corredissa)
Enric *Morera   (era Enric Morera)
Moratal *Sastre(era Moratal Sastre)

Com veieu, evitem traduir Naranjo, Isla i Corredera, i també Morera i
Sastre. Però aquests últims en la traducció spa-cat eixien bé perquè
casualment la traducció spa-cat coincideix; en altres idiomes hauria donat
errors. També es pot forçar un @ en comptes de *. Però així crec que és
millor.

Per a mi, aquest és el comportament ideal. No caldria res més. Ara hauríem
de fer més proves, i afegir alguna regla més per a contexts semblants.

Salutacions,
Jaume Ortolà


El dia 24 d’abril de 2018 a les 23:32, Jaume Ortolà i Font <
jaumeort...@gmail.com> ha escrit:

> El dia 24 d’abril de 2018 a les 19:35, Hèctor Alòs i Font <
> hectora...@gmail.com> ha escrit:
>
>> De tota manera, afegir amb CG  una etiqueta especial o canviar
>> l'etiqueta que hi hagi sembla complicat:
>> - Caldrà fer alguna cosa a la banda final del "pipe" d'apertium per poder
>> generar el cognom sense que surti un #
>>
>
> Sí, això pensava. Entenc que Aperitum no permet generar res que no estigui
> definit en el diccionari de destinació. De totes maneres això seria un
> plus. De moment n'hi hauria prou evitant les falses traduccions  de l'estil
> "Antonio Taló > Antonio Va talar". Jo ja em conformaria que sortís "Antonio
> *Taló", si pogués ser.
>
> Jaume
>
>
>
>> - Si el que es faci de CG és general per al tots els traductors que
>> utilitzin, per exemple, apertium-spa, caldrà retocar tots els traductors
>> amb català llengua d'origen de la traducció (i l'equivalent per a
>> apertium-cat).
>>
>> El dia 24 d’abril de 2018 a les 16:37, Jaume Ortolà i Font <
>> jaumeort...@gmail.com> ha escrit:
>>
>>> Gràcies per la resposta, Hèctor.
>>>
>>> La nova versió ja està pràcticament tancada, i per tant ja no hi
>>> entrarien aquests canvis. Evidentment caldria provar-ho amb més temps.
>>>
>>> Les regles serien potents i caldria anar amb molt de compte. S'haurien
>>> de controlar molt bé tots els contextos. Jo ho veig factible. Pense en
>>> casos com:
>>>
>>> El señor *Subías* declara que... [Una paraula només reconeguda com a
>>> verb, en majúscula i voltada de minúscules].
>>> José María *Taló* García [Un verb en majúscula voltat d'antropònims]
>>> Luis *Almería* Martínez [Un topònim voltat d'antropònims]
>>> Jesús *Bertomeu* [Un nom ara mateix desconegut després d'un antropònim]
>>> ...
>>>
>>> Ho provarem.
>>>
>>> Salutacions,
>>> Jaume Ortolà
>>>
>>>
>>> El dia 24 d’abril de 2018 a les 14:58, Hèctor Alòs i Font <
>>> hectora...@gmail.com> ha escrit:
>>>
>>>> Jaume,
>>>>
>>>> El que proposes em sembla perillós. Si ho entenc bé la idea, al cap i a
>>>> la fi, sembla que seria no traduir les paraules que comencen amb majúscula
>>>> si van més o menys seguides d'altres amb majúscula (o seria obligatòriament
>>>> en presència d'alguna paraula desconeguda que també va en majúscula?). El
>>>> problema és que això fàcilment acabarà fent que Creu Roja o Alps
>>>> Escandinaus o potser fins i tot Pirineus no es tradueixin. Per altra banda,
>>>> hi ha el problema que Domingo Rojo pot ser un nom de persona, però també un
>>>> fet històric. A més, si s'accepten coses com "Juan de Dios" com una unitat,
>>>> el sistema per reconèixer antropònims per no traduir-los pot començar a
>>>> agafar moltes coses que no ho són, per exemple Joan d'Àustria seguirà sent
>>>> Joan d'Àustria i no Juan de Austria. Jo, conceptualment, no ho veig gens
>>>> clar.
>>>>
>>>> A priori, però, la manera d'implementar coses d'aquestes sembla que
>>>> sigui CG. Allà hi ha regles que tracten paraules començades per majúscula.
>>>> El que hi ha fins ara, però, és triar o eliminar anàlisis existents. Aquí
>>>> caldria afegir alguna cosa que no hi és.
>>>>
>>>&g

[Apertium-catala] Fwd: Tests Apertium Softcatalà / Dona, dones (verbs)

2018-07-29 Thread Jaume Ortolà i Font
Bon dia,

He fet la prova d'introduir "dona" i "dones" analitzats com a verbs. En els
enllaços de més avall podeu veure el resultat en els tests cat-spa. Hi ha
de tot. Hi ha casos en què el tagger ho fa bé i altres en què no.

També es veuen prou casos en què en el text català original ja apareix
"dona" o "dones" sense accent, per error (en el DOGV i en la Viquipèdia) o
perquè ja fan servir conscientment la nova ortografia (en la Viquipèdia).
Per exemple: "mujer lugar a la exigencia" (abans) > "da lugar a la
exigencia" (ara).

Ara tocaria millorar aquests resultats amb Constraint Grammar. I fer el
mateix a poc a poc amb les cinc o sis paraules que han perdut l'accent
diacrític i són una mica més difícils.

Salutacions,
Jaume Ortolà



-- Forwarded message -
From: root 
Date: dg., 29 de jul. 2018 a les 5:34
Subject: Tests Apertium Softcatalà
To: 


Resultats dels tests

cat-dogv2017-eng (0): No hi ha diferències.
cat-dogv2017-ron (119629747): Diferències massa grans. No es mostren.
cat-dogv2017-spa (9021):
https://www.softcatala.org/apertium/differences/20180729/cat-dogv2017-spa.html
cat-wiki-eng (0): No hi ha diferències.
cat-wiki-ron (87739238): Diferències massa grans. No es mostren.
cat-wiki-spa (85070):
https://www.softcatala.org/apertium/differences/20180729/cat-wiki-spa.html
spa-dogv2017-cat (0): No hi ha diferències.
spa-dogv2017-cat_valencia (0): No hi ha diferències.
spa-europarl-cat (0): No hi ha diferències.
spa-europarl-cat_valencia (0): No hi ha diferències.
spa-wiki-cat (0): No hi ha diferències.
spa-wiki-cat_valencia (0): No hi ha diferències.
testvoc.cat-spa.txt (0): No hi ha diferències.
testvoc.spa-cat.txt (0): No hi ha diferències.
testvoc.spa-cat_valencia.txt (0): No hi ha diferències.
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] canvis ortogràfics en català

2018-07-27 Thread Jaume Ortolà i Font
Abans m'he descuidat un punt dels canvis ortogràfics: la dièresi (romboïdal
> romboidal). Ho faria igual que amb la e epentètica.

La meua proposta ve de la valoració personal que faig dels canvis, i per
tant és subjectiva i discutible.

Els canvis de la e, la erra i la dièresi em semblen positius (o
indiferents). Per això, propose adoptar-los plenament (i posar-los en els
bilingües) i no calfar-nos més el cap. No crec que hagen de mantenir-se com
a opció. No val la pena.

Amb els diacrítics és diferent. Voldria que hi hagués la possibilitat de
generar text amb la norma tradicional.

Missatge de Xavi Ivars  del dia dj., 26 de jul. 2018
a les 19:54:

> El que passarà és que, tot i que els canvis siguen només a la post-edició,
> si que hi haurà una explosió de modes si volem "permetre" que es puga fer
> qualsevol cosa.
> * cat
> * cat_val_uni
> * cat_val_gva
> * cat_nova
> * cat_val_uni_nova
> * cat_val_gva_nova
>

Això pareix molt d'embolic. Si tu dius que és viable...

Com a usuari voldria que hi hagués l'opció diacrítics nous/tradicionals (o
l'opció d'accentuació cafè/café). Si es pot donar l'opció a l'usuari,
perfecte. Si no, que com a mínim es puga fer d'alguna manera, encara que
siga comentant part del codi i fix per a cada instal·lació d'Apertium.

Jaume
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


[Apertium-catala] canvis ortogràfics en català

2018-07-26 Thread Jaume Ortolà i Font
Bon dia,

Com que un dia o altre ens demanaran aplicar els canvis ortogràfics a
Apertium, us faig cinc cèntims del que he pensat que seria més convenient
fer.

* Canvis de e epentètica i erra

Suposant que donem per bons els canvis, aquí no hi ha complicació. Es
tractaria de fer entrades com aquesta:

bacterioestàti
bacteriostàtibacterioestàti

En els bilingües faríem servir només la forma nova. Així tindríem l'anàlisi
en les dues formes i la síntesi en la forma nova.

* Diacrítics.

En els diacrítics la cosa es complica una mica més, però no gaire.

Pel que fa a generar text en català:

Jo procuraria mantenir la capacitat de generar text segons la norma
tradicional, a part de la nova. Internament ho deixaria tot com està, i
intentaria fer el pas a les noves normes de diacrítics en la postedició (en
apertium-cat.post-cat.dix). Només caldria posar-hi la llista de paraules
que canvien. Així hi hauria la possibilitat de generar amb un sistema i amb
l'altre encara que fos tocant el codi.

Pel que fa a l'anàlisi de català:

La majoria de casos de diacrítics s'haurien de tractar igual que hem dit
que tractaríem els canvis de e epentètica i de erra, però agafant la forma
tradicional amb accent com a prioritària. Això passaria amb els composts
(adéu, subsòl, etc.).

Hi hauria 5 o 6 paraules que requeririen desambiguació, alguna amb prou
dificultat (venen, os, net, soc, dona...). Amb una mica d'esforç es podria
resoldre amb bons percentatges d'encert (igual que hem fet en castellà per
a desambiguar algunes paraules "difícils": empleo, pico, alero, cubo...).

I després queden paraules que són tan rares que no cal ni considerar-les
(cóm, vénda, etc.).

Això és tot. No crec que sigui res molt traumàtic. Penseu-hi i digueu-me si
ho faríeu així o d'una altra manera.

Salutacions,
Jaume Ortolà
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] canvis ortogràfics en català

2018-08-18 Thread Jaume Ortolà i Font
Missatge de Mikel L. Forcada  del dia ds., 18 d’ag. 2018 a
les 18:00:

> Això està molt bé, Xavi, per a generar. Així no hi ha problemes amb
> proliferació de variants. L'anàlisi, com la faríem finalment?
>
>
Com vaig dir al principi.

La majoria de paraules remetran a la paraula que duia diacrític en el
mateix monolingüe :
adeu -> adéu
subsol -> subsòl
rebesnet -> rebesnét
...

Però per a les paraules 5 o 6 paraules "difícils" (dona, venen, os, net,
soc...) caldrà mirar-ho cas per cas i veure si es pot desambiguar amb
Constraint Grammar.

Jo he provat un poc amb "dona". No es poden fer miracles. Caldria
analitzar-la com a verb quan està prou clar pel context: (dona'ns, li dona,
us la dona, dona lloc/ajuda/sang, que dona a, dona a entendre, etc.), i en
la resta de casos serà nom. Perquè tampoc no volem degradar massa els
resultats dels qui fan servir el diacrític tradicional (dóna).

Jaume

Mikel
>
> El 17/08/18 a les 13:30, Xavi Ivars ha escrit:
>
> He estat treballant en un nou mòdul per tal d'integrar els nous
> diacrítics. He creat tres modes mes (cat_novaortografia,
> cat_val_uni_novaortografia i cat_val_gva_novaortografia), però no es
> compilen nous diccionaris monolingües ni bilingües, només un petit
> "postgen" nou.
>
> Però calia un nou mòdul que s'aplicarà entre la generació i la
> post-generació (l'he anomenat "inter-generació" :P) La idea és que això
> permetrà fer "post-generació" en N fases, semblant al que es fa amb els
> interchunks i postchunks amb el transfer.
>
> En aquest cas, en una primera fase de post-generació (que no s'executarà
> si utilitzem els modes clàssics, amb l'ortografia clàssica), es faran els
> canvis ortogràfics. Després es farà la fase de post-generació actual, que
> té en compte coses com apostrofació, em -> me,...
>
>
> Missatge de Hèctor Alòs i Font  del dia dt., 31 de
> jul. 2018 a les 12:01:
>
>> I com està el tema de fer portables les regles de desambiguació amb CG en
>> els entorns en què, si no m'equivoco, no funcionen? Tot plegat, aquests
>> canvis encara donaran més pes a la desambiguació amb CG i faran que baixi
>> la qualitat de les traduccions en els entorns/aplicacions on CG no es pugui
>> utilitzar.
>>
>> El dia 31 de juliol de 2018 a les 11:52, Marc Riera Irigoyen <
>> marc.riera.irigo...@gmail.com> ha escrit:
>>
>>> Bon dia,
>>>
>>> Com ha dit en Xavi, si mantenim les formes actuals com a principals no
>>> només evitem haver de propagar canvis a tots els diccionaris bilingües (que
>>> en el fons no és tanta feina, però hi hauríem de dedicar una estona), sinó
>>> haver de crear "pseudolemes" com "mango_fruta" al diccionari. A més, els
>>> diacrítics que hem tingut fins ara ens beneficien a nivell de
>>> desambiguació, i segurament tinguem millors resultats així que amb les
>>> formes noves.
>>>
>>> Això pareix molt d'embolic. Si tu dius que és viable...
>>>> Com a usuari voldria que hi hagués l'opció diacrítics nous/tradicionals
>>>> (o l'opció d'accentuació cafè/café). Si es pot donar l'opció a l'usuari,
>>>> perfecte. Si no, que com a mínim es puga fer d'alguna manera, encara que
>>>> siga comentant part del codi i fix per a cada instal·lació d'Apertium.
>>>
>>>
>>> Això dels modes sembla un embolic a primera vista, però és simplement el
>>> funcionament intern d'Apertium, la manera que té de representar diferents
>>> parells (o en aquest cas, variants dins d'un mateix parell). Que per a
>>> l'usuari sigui més o menys difícil de fer servir dependrà de com es
>>> reprodueixi a la interfície. Personalment, seria partidari de mantenir al
>>> desplegable de la web les variants geogràfiques i afegir una casella
>>> independent a la part inferior (com es fa actualment a LanguageTool) per
>>> decidir el model de generació. No sóc jo qui s'encarrega de la interfície
>>> web, però fins on sé, es podria fer.
>>>
>>> *Marc Riera*
>>>
>>>
>>> Missatge de Xavi Ivars  del dia dv., 27 de jul.
>>> 2018 a les 21:17:
>>>
>>>>
>>>>
>>>> Missatge de Jaume Ortolà i Font  del dia dj.,
>>>> 26 de jul. 2018 a les 23:03:
>>>>
>>>>> Abans m'he descuidat un punt dels canvis ortogràfics: la dièresi
>>>>> (romboïdal > romboidal). Ho faria igual que amb la e epentètica.
>>>>>
>>>>> La meua proposta ve de la valoració personal que faig dels canvis, i
>>>>> per tant és subjectiva i discutible.
>>>>&g

Re: [Apertium-catala] Paradigmes de noms propis

2018-07-15 Thread Jaume Ortolà i Font
Bon dia,

He estat mirant què passava en la traducció spa-cat de Teruel i Terol, que
poden ser cognoms que no es tradueixen o un topònim que sí que es tradueix.

La veritat és que és un embolic. La solució definitiva seria fer servir els
mateixos paradigmes del català en espanyol. (Hi ha uns 10.000 noms propis
en el diccionari espanyol.) En tot cas, abans de tirar-nos de cap a
canviar-ho, hauríem d'estar completament segurs que aquests paradigmes són
definitius, i que no apareixeran altres necessitats.

Salutacions,
Jaume Ortolà



Missatge de Marc Riera Irigoyen  del dia
dj., 24 de maig 2018 a les 17:24:

> Bona tarda,
>
> He actualitzat la pàgina de la wiki [1] referent al paquet monolingüe
> català amb una llista dels paradigmes "bons" per als noms propis. Us la
> copio aquí també:
>
> Topònims : Iran__np
>> Topònims : Àfrica__np
>> Topònims : Estats_Units__np
>> Topònims : Balears__np
>>
>> Antropònims  : Marc__np
>> Antropònims : Maria__np
>> Cognoms : Saussure__np
>>
>> Altres : Linux__np
>> Altres : Wikipedia__np
>> Altres : Jocs_Olímpics__np
>> Altres : Falles__np
>> Altres : Honda__np
>>
>
> Salutacions,
>
> Marc
>
> [1] http://wiki.apertium.org/wiki/Apertium-cat
>
>
> --
> Check out the vibrant tech community on one of the world's most
> engaging tech sites, Slashdot.org! http://sdm.link/slashdot
> ___
> Apertium-catala mailing list
> Apertium-catala@lists.sourceforge.net
> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] Paradigmes de noms propis

2018-07-15 Thread Jaume Ortolà i Font
És veritat que en la traducció spa-cat no hi ha gaires més necessitats.

Sí que hi ha alguns petits problemes. No veig clar com cobrir totes les
opcions de la traducció Teurel/Terol sense haver d'introduir totes aquestes
entrades:
https://github.com/apertium/apertium-spa-cat/commit/944b9b30aaf75372edf5c3730c50ae4ce79f0105

He intentat buscar algun cas similar, però no estan ben resolts. Aquest,
per exemple, no inclou la traducció cat>spa com a cognom de Zaragoza,
perquè Zaragoza en català és "cog" (i també hi manca Saragossa com a
cognom):

   Zaragoza
   ZaragozaSaragossa

Em sembla que, com diu Xavi, cal entrenar de nou el tagger. ¿És possible
que algunes etiquetes introduïdes més recentment com "cog" no les reconega
encara el tagger?

Per una altra part, falta resoldre millor la qüestió dels articles en
topònims. Penseu que d'entrada tant en textos catalans com en textos
espanyols pot haver-hi o no l'article. Jo en general faria servir en el
bilingüe traduccions spa-cat sense article, i afegiria algunes regles (de
transferència?) per a assegurar que es posa article quan aquest és
imprescindible.

Jaume

Missatge de Xavi Ivars  del dia dg., 15 de jul. 2018
a les 13:44:

> Estic amb Hèctor. Ara mateix, ja necessitariem un molt bon tagger (o
> regles de CG) només per a saber si es tracta d'antropònim o topònim. Però
> els paradigmes en si, traduint entre castellà i català, no veig com
> canviaríen la traducció...
>
> Missatge de Hèctor Alòs i Font  del dia dg., 15 de
> jul. 2018 a les 13:19:
>
>> La veritat és que és de mal dir si aquests paradigmes són "definitius".
>> Per exemple, hi ha traductors que distingeixen també hidrònims, o aniria
>> molt bé quan treballes en francès saber si és una ciutat o un país perquè
>> sovint la preposició que porten és diferent, o en occità les muntanyes
>> porten article, però en general els topònims no, o en rus la distinció
>> entre cognoms masculins i femenins (i singulars i plurals) és
>> importantíssima, etc. Però pensant exclusivament en el castellà, no veig
>> gaire necessitat de distingir més del que hi ha ara en català. De tota
>> manera, això ajudarà gaire a distingir entre un antropònim i un topònim? La
>> diferència ara mateix ja es fa. Tota aquesta feinada té avantatges, però
>> d'aquest en particular no n'estic segur.
>>
>> El dia 15 de juliol de 2018 a les 12:32, Jaume Ortolà i Font <
>> jaumeort...@gmail.com> ha escrit:
>>
>>> Bon dia,
>>>
>>> He estat mirant què passava en la traducció spa-cat de Teruel i Terol,
>>> que poden ser cognoms que no es tradueixen o un topònim que sí que es
>>> tradueix.
>>>
>>> La veritat és que és un embolic. La solució definitiva seria fer servir
>>> els mateixos paradigmes del català en espanyol. (Hi ha uns 10.000 noms
>>> propis en el diccionari espanyol.) En tot cas, abans de tirar-nos de cap a
>>> canviar-ho, hauríem d'estar completament segurs que aquests paradigmes són
>>> definitius, i que no apareixeran altres necessitats.
>>>
>>> Salutacions,
>>> Jaume Ortolà
>>>
>>>
>>>
>>> Missatge de Marc Riera Irigoyen  del dia
>>> dj., 24 de maig 2018 a les 17:24:
>>>
>>>> Bona tarda,
>>>>
>>>> He actualitzat la pàgina de la wiki [1] referent al paquet monolingüe
>>>> català amb una llista dels paradigmes "bons" per als noms propis. Us la
>>>> copio aquí també:
>>>>
>>>> Topònims : Iran__np
>>>>> Topònims : Àfrica__np
>>>>> Topònims : Estats_Units__np
>>>>> Topònims : Balears__np
>>>>>
>>>>> Antropònims  : Marc__np
>>>>> Antropònims : Maria__np
>>>>> Cognoms : Saussure__np
>>>>>
>>>>> Altres : Linux__np
>>>>> Altres : Wikipedia__np
>>>>> Altres : Jocs_Olímpics__np
>>>>> Altres : Falles__np
>>>>> Altres : Honda__np
>>>>>
>>>>
>>>> Salutacions,
>>>>
>>>> Marc
>>>>
>>>> [1] http://wiki.apertium.org/wiki/Apertium-cat
>>>>
>>>>
>>>> --
>>>> Check out the vibrant tech community on one of the world's most
>>>> engaging tech sites, Slashdot.org! http://sdm.link/slashdot
>>>> ___
>>>> Apertium-catala mailing list
>>>> Apertium-catala@lists.sourceforge.net
>>>> https://lists.sourceforge.net/lists/listinf

Re: [Apertium-catala] Paradigmes de noms propis

2018-07-15 Thread Jaume Ortolà i Font
Missatge de Xavi Ivars  del dia dg., 15 de jul. 2018
a les 20:17:

> No estic segur, però jo diria que, ara mateix, al bilingüe, les entrades
> "ant" en català no calen, ni tampoc les "cog" al castellà.
>
> Terol Terol n="cog"/>
>
>
> Només amb això no funcionaria?
>

Podria ser. Però segur que calen més retocs en els paradigmes. A mi no m'ha
funcionat.

Jaume




> --
> < Xavi Ivars >
> < http://xavi.ivars.me >
>
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] Fwd: Escrito Ayto. de Alfondeguilla

2018-07-04 Thread Jaume Ortolà i Font
Segons la documentació de l'AVL, és sempre Alfondeguilla, en valencià i en
castellà. Per tant, es corregeix i ja està.

https://www.avl.gva.es/documents/84900/91479/Denominaci%25C3%25B3%2Bdels%2Bmunicipis%2Bvalencians/8bc07bb2-7d03-42cb-a97a-2df9a8f66b65

Alboraia és un cas diferent. Ací només cal saber quin criteri apliquem (nom
oficial, nom valencià o nom segons predomini lingüístic). Crec que el
llibre d'estil de les universitats diu que es fa servir el nom valencià. En
la Generalitat valenciana fan servir diferents criteris segons el context,
però en el traductor em pareix que és el nom valencià. I si no, que em
corregisca Donís.

Jaume O.
(des del mòbil)


El dc. 4 de jul. de 2018 16.53, Mikel L. Forcada  va
escriure:

> Bon dia,
>
> ens ha arribat a través d'un vicerectorat de la UA este escrit sobre el
> nom d'un municipi que traduïm al català quan el català no és oficial.
>
> https://ca.wikipedia.org/wiki/Alfondeguilla (els enllaços són
> interessant).
>
> Passarà més vegades: no sé què cal fer, pot ser un cas com el de
> l'Ajuntament d'Alboraya (sic), també un municipi de predomini lingüístic
> valencià.
>
> Es pot fer que el traductor de la UA ho faça com ells diuen, o arreglar-ho
> i ja està.
>
> Idees?
>
> Gràcies
>
> Mikel
>
>
>  Missatge reenviat 
> Assumpte: Escrito Ayto. de Alfondeguilla
> Data: Wed, 4 Jul 2018 11:07:06 +0200
> De: Vicerrectorado de Campus y Tecnología 
> 
> A: m...@dlsi.ua.es
>
>
> Buenos días Miquel,
>
> Por indicación de Rafael Muñoz, te envío el escrito que hemos recibido en
> el Vicerrectorado, referente a la traducción que ha realizado el apertium,
> sobre un nombre propio de un municipio. El escrito nos lo remite el
> Alcalde. Por si hubiera forma de corregirlo en el programa.
>
> gracias.
>
> Saludos,
>
>
> --
> Universidad de Alicante
> Vicerrectorado de Campus y Tecnología
> Telf. 965 90 3920/3930
> Fax. 965 90 95 61vr.cam...@ua.es
>
> -
>
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


[Apertium-catala] traducció de noms propis: Granada

2018-04-04 Thread Jaume Ortolà i Font
He quedat encallat intentant arreglar aquesta traducció spa>cat.

Voy a Granada > Vaig a *Magrana > Vaig a Granada.

He provat de tot, però no funciona (incloent-hi la selecció en Constraint
Grammar). ¿Algú hi podria donar un colp d'ull?

Salutacions,
Jaume Ortolà
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] Fwd: Noms propis

2018-04-14 Thread Jaume Ortolà i Font
Gràcies, Marc. Me'n faig una idea.

Els noms propis, per desgràcia, donen molta feina, però aquesta feina és
poc productiva. Hi ha poques vegades en què realment calgui la informació
de les etiquetes.

Entrant en el cas espanyol-català, ¿suggereixes que valdria més eliminar
les marques d'invariable ?

En els casos difícils, a més d'etiquetar-ho tot bé, cal fer desambiguació.
Veig que ja es fan coses. Per exemple, "Jaime Martínez, Jaime I, en
Zaragoza, Juan Zaragoza" es tradueix correctament per "Jaime Martínez,
Jaume I, a Saragossa, Juan Zaragoza".

Salutacions,
Jaume Ortolà


El dia 13 d’abril de 2018 a les 14:04, Marc Riera Irigoyen <
marc.riera.irigo...@gmail.com> ha escrit:

> Hola Jaume,
>
> Al diccionari monolingüe català queden uns 450 noms propis de a categoria
> "altres" pendents de classificar (si algú s'hi vol animar, són aquí [1], al
> cinquè full).
>
> Sobre les etiquetes, crec que la confusió ve principalment de la
> (des)organització del diccionari bilingüe castellà-català. Hi ha
> moltíssimes entrades, com les del missatge de Donís Seguí, que estan
> definides com a invariables (), per la qual cosa Apertium busca el
> mateix lema amb les mateixes etiquetes a tots dos costats. Si coincideix
> tot no hi ha problema, però a la mínima que hi ha un canvi a un dels dos
> monolingües (com ha passat amb el català) l'entrada queda trencada.
>
> A part d'això, com bé has dit, hi ha diferents criteris pel que fa a les
> etiquetes que cal especificar a les entrades del diccionari bilingüe. Jo
> sóc partidari d'especificar el màxim d'etiquetes possible per evitar
> problemes inesperats. Poso un exemple amb el nom propi "Núria", que pot ser
> un antropònim o un topònim:
>
> NúriaNúria
>
> Amb una entrada així, Apertium transfereix totes les etiquetes darrere de
>  d'un costat a l'altre. Si "Núria" existeix en català com a
> , Apertium cercarà en castellà el mateix, i funcionaria. El
> problema apareixeria si s'afegís "Núria" com a topònim en català
> (), perquè Apertium el transferiria al castellà per aquesta
> mateixa entrada. Com que només hi ha especificada l'etiqueta ,
> qualsevol cosa que sigui "Núria" i tingui aquesta etiqueta en primera
> posició es transferiria. Per tant, és molt important especificar més
> etiquetes, com per exemple:
>
> NúriaNúria n="ant"/>
>
> Amb una entrada així, només es transferiria l'antropònim. Si després es
> volgués afegir el topònim, només caldria afegir una altra entrada:
>
> NúriaNúria n="top"/>
>
> D'aquesta manera no hi hauria conflictes entre els dos tipus de nom propi
> i es podria ajustar millor la traducció.
>
> Marc
>
>
>
> [1] https://docs.google.com/spreadsheets/d/19eFQ2xS6bItbCUxUtPNk-
> bMBRPIMKzLR1oY6d0t84_M/edit?usp=sharing
>
> El dia 13 d’abril de 2018 a les 13:30, Jaume Ortolà i Font <
> jaumeort...@gmail.com> ha escrit:
>
>> Bon dia,
>>
>> Donís Seguí, que fa contribucions al parell espanyol-català, m'envia
>> aquesta qüestió sobre noms propis. Copie el missatge més avall. ¿Algú pot
>> explicar com està tot això ara mateix? Quins criteris s'han de seguir, què
>> està pendent de fer, etc. Ni tan sols estic segur del significat de totes
>> les etiquetes que es fan servir.
>>
>> També tinc altres dubtes sobre noms propis. Tenen relació amb els que
>> queden pendents en el testvoc spa-cat.[1] ¿Quins criteris convé seguir?
>> Entenc que els noms de persones en general no els traduïm, siga Pedro,
>> Juan... o Pere, Joan... Però hi ha molts casos problemàtics o dubtosos. Els
>> noms propis de persona poden coincidir amb topònims o amb noms comuns o
>> altres coses: Nuria, Victoria, Gracia, Olimpia, Penedés... ¿Es poden
>> establir unes orientacions generals o simplement hem de posar el que
>> intuïtivament tinga més sentit en cada cas?
>>
>> Salutacions,
>> Jaume Ortolà
>>
>> [1] https://github.com/apertium/apertium-spa-cat/blob/master
>> /dev/testvoc.spa-cat.txt
>>
>>
>> -- Missatge reenviat --
>> De: Donís <segui_...@gva.es>
>> Data: 13 d’abril de 2018 a les 13:11
>> Assumpte: Noms propis
>> Per a: Jaume Ortolà i Font <jaumeort...@gmail.com>
>>
>>
>> Bon dia, Jaume, estem preparant una bona llista de noms propis, i hem
>> vist que hi ha divergència de criteris. Mira estos casos
>>
>> *En estos antropònims:*
>>Adoración
>>Albentosa
>>Afrodita
>>AlCapone
>>
>>
>> *Ens estos topònims, en un posa que és "np" i en l'altre que és "ant" o
>> "top&quo

Re: [Apertium-catala] Maniquí

2018-04-17 Thread Jaume Ortolà i Font
El dia 17 d’abril de 2018 a les 7:40, Juan Pablo Martínez 
ha escrit:

> Bon dia,
> Es poden fer entrades dobles amb els paradigmes abdominal__adj y
> abundante__adj, pero potser és millor tenir un nou paradigme per a aquests
> adjectius (*marroquí, ceutí, israelí, pakistaní*
> *​,...*).
> Així serà més fácil que si s'incorporen nous casos més endavant no s'hi
> oblide una de les dues possibles terminacions de plural.
>
>
Ja està fet. He creat el paradigma marroquí_adj i l'he aplicat a 6
adjectius. Com en altres paradigmes similars, la terminació -íes és la que
es fa servir en la síntesi.

Jaume Ortolà



Juan Pablo
>
>
> El 17/04/2018 a las 0:06, Donís Seguí escribió:
>
> Bon dia, Hi ha un tema que ja vaig tractar la setmana passada amb Jaume.
> Es tracta de paraules com *bisturí*, que ens va eixir en castellà en
> plurarl, *bisturíes,* que el programa no va traduir, i és perquè remet a
> *abismo*, model que només accepta el plural acabat en *-s, bisturís*.
> Aleshores, Jaume em va dir que tant *bisturí *com *esquí, frenesí... *han
> de remetre a *club*, substantiu masculí, que fa *clubs *i *clubes*.
>
>
>
> També tenim com a paradigma "*maniquí*" que és un substantiu masculí i
> femení que
> ​també ​
> fa plural en *-ís* i *-íes*.
>
>
>
> Penseu, però, que també caldrà tenir un paradigma
> ​per las adjectius
> , masculí i femení, al qual pugue
> ​m assignar
> els gentilicis, com ara *marroquí, ceutí, israelí, pakistaní*
> *​, **yemení**, tu​necí*
> *.*.. que tenen doble terminació en plural *-ís* i -*íes*
> *​* i són masculí i femení?​
>
>
> Gràcies
>
>
> Donís Seguí
>
>
> --
> Check out the vibrant tech community on one of the world's most
> engaging tech sites, Slashdot.org! http://sdm.link/slashdot
>
>
>
> ___
> Apertium-catala mailing 
> listApertium-catala@lists.sourceforge.nethttps://lists.sourceforge.net/lists/listinfo/apertium-catala
>
>
>
> 
> --
> Check out the vibrant tech community on one of the world's most
> engaging tech sites, Slashdot.org! http://sdm.link/slashdot
> ___
> Apertium-catala mailing list
> Apertium-catala@lists.sourceforge.net
> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>
>
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


[Apertium-catala] publicació spa-cat

2018-04-20 Thread Jaume Ortolà i Font
Bon dia,

A principi de maig la Generalitat valenciana farà públic el seu nou portal
de traducció i correcció, basat en Apertium i LanguageTool.

Els pròxims dies estaria bé no introduir massa novetats en el parell
spa-cat, acabar de revisar el testvoc[1] i fer els tests que puguem. Si hi
podeu col·laborar...

En el testvoc no sé com s'han d'arreglar algunes paraules de les categories
menys habituals: pronoms, relatius, adverbis...

Salutacions,
Jaume Ortolà

[1]
https://github.com/apertium/apertium-spa-cat/blob/master/dev/testvoc.cat-spa.txt
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


[Apertium-catala] cat>spa com>#cómo

2018-04-24 Thread Jaume Ortolà i Font
He trobat un problema prou important en la traducció cat>spa perquè és una
paraula molt comuna.

Tots els "com" eren traduïts per "#cómo", perquè el tagger deixava només
l'etiqueta . que duia a  aquesta entrada:

   cómo  com

De moment, ho he resolt canviant l'entrada per aquestes dues:

   cómo  com
como  com

Suposo que es podria desambiguar l'interrogatiu quan hi ha interrogants (?) en
la frase.

M'imagino que ací fallen altres coses (el tagger?). Ho dic per si algú sap
com està aquesta qüestió.

Salutacions,
Jaume Ortolà
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


[Apertium-catala] tractament de noms propis

2018-04-24 Thread Jaume Ortolà i Font
Bon dia,

Em pregunte si seria possible de fer algunes regles per al tractament de
noms de persona (noms i cognoms). Per més cognoms que afegim als
diccionaris, sempre n'hi haurà més. I el perill de traduir un cognom sempre
està present. Acabe de fer una prova spa-cat amb una llista de 100 persones
(nom i cognoms), i han eixit 14 traduccions falses, per diferents motius
(alguns són topònims, paraules comunes, etc.) És un percentatge molt alt.

Almeria
Cirerer (Cerezo)
Desemparats
Plàcida
Os (Hueso)
Muntanyès
el Campello (per Campello)
Còrdova
Diumenge roig (Domingo Rojo)
Savina
Francès
Va talar (Taló)
Juan de Déu
Pujaves (Subías)
Remeie (Remedio)

Una solució és, evidentment, continuar afegint noms i cognoms als
diccionaris i etiquetar-los correctament. Però això no s'acaba mai. Crec
que es podrien fer algunes regles per a arreglar-ho. Conceptualment és
senzill, però no sé si es pot implementar fàcilment.

Si es troben 3-4 paraules seguides en majúscules, que són paraules
desconegudes o barrejades amb noms propis, llavors no s'hauria de traduir
cap paraula del grup i deixar-ho tal qual.

O altres regles, ara pensant en paraules soltes. Per exemple, una paraula
que només pot ser un verb (Subías, Taló, en espanyol) si està en majúscula
en qualsevol lloc que no siga el principi de la frase, llavors no es
tradueix. Etcètera.

¿Trobeu que té sentit fer aquestes regles? Ara, ¿es poden implementar? ¿En
quin mòdul? Caldria poder detectar paraules en majúscula i indicar amb
alguna marca "no traduïsques".

Salutacions,
Jaume Ortolà
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] Bastant

2018-04-01 Thread Jaume Ortolà i Font
Tenint en compte tot el que s'ha dit, aquesta sembla que és una solució
raonable:

https://github.com/apertium/apertium-cat/commit/1f4d7282ee02cded95edef2aa69f150ea186a1b9

Jaume Ortolà


El dia 1 d’abril de 2018 a les 19:30, Juan Pablo Martínez <jpm...@unizar.es>
ha escrit:

> Per si serveix, això és el que hi diu la recent Gramàtica de la Llengua
> Catalana de l'IEC:
>
> https://www.dropbox.com/s/3hpdhy61codi2ps/2018-03-31%2014.35.44.jpg?dl=0
>
> Juan Pablo
>
> El 31/03/2018 a las 12:55, Jaume Ortolà i Font escribió:
>
> El dia 31 de març de 2018 a les 12:49, Jaume Ortolà i Font <
> jaumeort...@gmail.com> ha escrit:
>
>> Efectivament, l'IEC accepta de fa pocs anys la flexió de gènere de
>> "bastant", que és un vulgarisme que ha anat escampant-se en diferents
>> nivells de llengua.
>>
>
> El canvi és concretament del 2011:
> https://dlc.iec.cat/esmenes_DIEC2_internet_abril2011_tots.pdf
>
> Jaume
>
>
>
> --
> Check out the vibrant tech community on one of the world's most
> engaging tech sites, Slashdot.org! http://sdm.link/slashdot
>
>
>
> ___
> Apertium-catala mailing 
> listApertium-catala@lists.sourceforge.nethttps://lists.sourceforge.net/lists/listinfo/apertium-catala
>
>
>
> 
> --
> Check out the vibrant tech community on one of the world's most
> engaging tech sites, Slashdot.org! http://sdm.link/slashdot
> ___
> Apertium-catala mailing list
> Apertium-catala@lists.sourceforge.net
> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>
>
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] [Apertium-stuff] Merged svn histories for git

2018-03-26 Thread Jaume Ortolà i Font
Només els bilingües? Els monolingües entenc que no.

Salutacions,
Jaume Ortolà


2018-03-26 12:33 GMT+02:00 Xavi Ivars :

> *Aquest missatge és important.*
>
> Tino ha estat fent canvis a alguns parells per a recuperar l'històric de
> canvis dels parells (i eines) següents.
>
> Si teniu algun dels parells "descarregats" del GitHub (heu fet un git
> clone), haureu d'esborrar la vostra còpia local i tornar a fer el *clone*.
>
> Això afecta als principals parells del català: *spa-cat*, *fra-cat* i
> *eng-cat*, així com al *spa-arg*.
>
> Si teniu qualsevol dubte, pregunteu!
>
> Xavi
>
>
> 2018-03-26 11:33 GMT+02:00 Tino Didriksen :
>
>> I've worked through https://github.com/apertium/ap
>> ertium-on-github/issues/33 and fixed these repos. You will need to
>> reclone them.
>> - lttoolbox
>> - apertium
>> - apertium-lex-tools
>> - apertium-separable
>> - es-de/spa-deu
>> - es-an/spa-arg
>> - es-ca/spa-cat
>> - fr-ca/fra-cat
>> - en-ca/eng-cat
>>
>> Are there any other git repos that are "missing" history? E.g. where a
>> new folder was created and files copied into it, instead of using "svn cp"
>> or "svn mv"?
>>
>> -- Tino Didriksen
>>
>>
>> 
>> --
>> Check out the vibrant tech community on one of the world's most
>> engaging tech sites, Slashdot.org! http://sdm.link/slashdot
>> ___
>> Apertium-stuff mailing list
>> apertium-st...@lists.sourceforge.net
>> https://lists.sourceforge.net/lists/listinfo/apertium-stuff
>>
>>
> 
> --
> Check out the vibrant tech community on one of the world's most
> engaging tech sites, Slashdot.org! http://sdm.link/slashdot
> ___
> Apertium-catala mailing list
> Apertium-catala@lists.sourceforge.net
> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>
>
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] publicació spa-cat

2018-04-25 Thread Jaume Ortolà i Font
La versió de què us parlava en aquest missatge ja es pot donar per tancada.

Ara la Generalitat valenciana vol traure actualitzacions freqüents, almenys
durant els pròxims mesos. L'encarregat d'això és Donís Seguí, que s'ha
incorporat fa poc a la llista. No sé com ho hem de gestionar. Amb
publicacions recents de tant en tant poden introduir-se errades, però el
fet de fer-les freqüents també permet corregir aviat.

En LanguageTool posem en producció cada dia una nova compilació, i no sol
haver-hi problemes greus. Però LanguageTool incorpora moltíssims tests, que
el fan molt robust.

Salutacions,
Jaume Ortolà


El dia 20 d’abril de 2018 a les 15:04, Jaume Ortolà i Font <
jaumeort...@gmail.com> ha escrit:

> Bon dia,
>
> A principi de maig la Generalitat valenciana farà públic el seu nou portal
> de traducció i correcció, basat en Apertium i LanguageTool.
>
> Els pròxims dies estaria bé no introduir massa novetats en el parell
> spa-cat, acabar de revisar el testvoc[1] i fer els tests que puguem. Si hi
> podeu col·laborar...
>
> En el testvoc no sé com s'han d'arreglar algunes paraules de les
> categories menys habituals: pronoms, relatius, adverbis...
>
> Salutacions,
> Jaume Ortolà
>
> [1] https://github.com/apertium/apertium-spa-cat/blob/
> master/dev/testvoc.cat-spa.txt
>
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


[Apertium-catala] numerals

2018-04-25 Thread Jaume Ortolà i Font
Bon dia,

He vist que hi havia una petita incongruència en els numerals en català,
que provocava un error en la traducció spa<>cat. Ho hem parlat ací Marc i
jo.

https://github.com/apertium/apertium-cat/commit/
b96379675c5bf59c69752b9db031a865aa764eb8

Mirem quins canvis podem fer que creïn els mínims problemes possibles als
diferents parells de traducció.

El canvi mínim requerit per al català-castellà és que es puguin diferenciar
cardinals i ordinals.

"cinquanta-un/a" vs.   "cinquanta-u"
"cinquanta-dos/dues"  vs.   "cinquanta-dos"

Donant-hi voltes crec que he trobat una solució "mínima", si no volem
començar a etiquetar ordinals i cardinals (ens hauríem d'inventar etiquetes
noves?). Pot estar tot etiquetat com a "numeral", i quan es vulgui la forma
ordinal s'ha de demanar la forma "mf sp".

Els casos típics serien:

cinquanta-u num mf sp (ordinal)
cinquanta-un num m sp
cinquanta-una num f sp

cinquanta-dos num mf sp  (ordinal) (potser r="RL", només síntesi)
cinquanta-dos num m sp
cinquanta-dues num f sp

cinquanta-tres num mf sp (ordinal i cardinal)

cinquanta-un mil num mf sp  (ordinal) (potser r="RL", només síntesi)
cinquanta-un mil num m sp
cinquanta-una mil num f sp

Amb això n'hi hauria prou per a forçar l'ordinal en casos com: pàgina dos,
pàgina cinquanta-u, etc.

Els canvis de gènere s'han de resoldre en els diccionaris bilingües segons
cada llengua. Això és inevitable.

Per una altra part, tenim els ordinals primer, segon..., cinquanta-unè...
Es podrien etiquetar com a adjectius ordinals. Però sembla que no existeix
aquesta etiqueta. La podem crear? Per a mi no és una prioritat.

Finalment, hi ha els numerals com a noms. Ara no els tenim. Se'n podrien
introduir uns quants, per exemple de l'u al 10 o al 20: l'u, els uns, el
dos, els dosos, el tres, els tresos, etc.

Una altra cosa del castellà és que s'usa "cincuenta y un" en lloc de "cincuenta
y uno" si va davant de nom. Per tant, té sentit posar "cincuenta y un" com
a determinant diferent del numeral "cincuenta y uno". Per a aconseguir el
mateix efecte en la traducció cat<>spa segurament cal duplicar
"cinquanta-un" en català com a determinant. Crec que la confusió ha vingut
d'aquí: de voler imitar en català el model castellà i no fer-ho bé del tot.

Jaume
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] cat>spa com>#cómo

2018-04-25 Thread Jaume Ortolà i Font
El dia 25 d’abril de 2018 a les 7:23, Hèctor Alòs i Font <
hectora...@gmail.com> ha escrit:

> Hola Jaume,
>
> Ara se'm fa una mica difícil mirar coses en el cat-spa perquè tinc canvis
> en el cat esperant de pujar quan tanquis la versió. Vaig intentar pujar
> només algunes cosetes de desambiguació, però no vaig veure com fer-ho sense
> pujar també paraules noves.
>
> Exactament, què vols desambiguar en spa>cat? No sembla que hi hagi res a
> desambiguar entre "como" i "cómo". Quant a cat>spa, ja hi ha algunes regles
> per fer-ho (busca 'Com' en el fitxer rlx, en trobaràs cap a la línia 530).
> És un tema complicat perquè els interrogatius no són només en les frases
> amb punt d'interrogació, sinó també, per exemple en "no sé com t'ho fas".
>
> I realment funciona això:
>cómo  com n="itg"/>
> como  com n="adv"/>
> ?
>
> Com tradueix "como"? (spa>cat)
>

Hi ha moltes altres entrades relacionades amb "com" i "com a". És complicat
i no m'he parat a mirar-ho.

Al final he canviat aquesta entrada, afegint-hi "itg":
   cómo  com

He eliminat aquesta (que havia afegit jo):
como      com

I he deixat tota la resta com estava. Amb això desapareix el problema i no
sembla que empitjori res.

Jaume








>
> El dia 25 d’abril de 2018 a les 0:53, Jaume Ortolà i Font <
> jaumeort...@gmail.com> ha escrit:
>
>> He trobat un problema prou important en la traducció cat>spa perquè és
>> una paraula molt comuna.
>>
>> Tots els "com" eren traduïts per "#cómo", perquè el tagger deixava només
>> l'etiqueta . que duia a  aquesta entrada:
>>
>>cómo  com
>>
>> De moment, ho he resolt canviant l'entrada per aquestes dues:
>>
>>cómo  com> n="itg"/>
>> como  com> n="adv"/>
>>
>> Suposo que es podria desambiguar l'interrogatiu quan hi ha interrogants
>> (?) en la frase.
>>
>> M'imagino que ací fallen altres coses (el tagger?). Ho dic per si algú
>> sap com està aquesta qüestió.
>>
>> Salutacions,
>> Jaume Ortolà
>>
>>
>> 
>> --
>> Check out the vibrant tech community on one of the world's most
>> engaging tech sites, Slashdot.org! http://sdm.link/slashdot
>> ___
>> Apertium-catala mailing list
>> Apertium-catala@lists.sourceforge.net
>> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>>
>>
>
--
Check out the vibrant tech community on one of the world's most
engaging tech sites, Slashdot.org! http://sdm.link/slashdot___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] Traeu, veem, tèrmens

2019-03-23 Thread Jaume Ortolà i Font
Mikel,

Es poden afegir sense cap problema. Alguns dels que esmentes ja hi són,
però altres no. Jo he provat ara de traduir:

hòmens, jóvens, térmens, veem, veeu, traeu, traem, òrguens, ràvens
> hombres, jóvenes, términos, vemos, veis, *traeu, *traem, órganos, *ràvens

(Térmens, segons l'AVL, és amb accent tancat.)

Podem repassar plurals en -ns i verbs sense la i antihiàtica. Alguna cosa
més?

Salutacions,
Jaume Ortolà


Missatge de Mikel L. Forcada  del dia ds., 23 de març 2019
a les 11:36:

> Bon dia,
>
> potser seria bona idea que apertium-cat-spa acceptara formes valencianes
> com "traeu", "veem", o "tèrmens", que ara deixa sense traduir. ¿Com ho
> podríem fer?
>
> Mikel
>
> --
> Mikel L. Forcada  http://www.dlsi.ua.es/~mlf/
> Departament de Llenguatges i Sistemes Informàtics
> Universitat d'Alacant
> E-03690 Sant Vicent del Raspeig
> Spain
> Office: +34 96 590 9776
>
>
>
> ___
> Apertium-catala mailing list
> Apertium-catala@lists.sourceforge.net
> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


[Apertium-catala] denominacions oficials de municipis valencians

2019-06-07 Thread Jaume Ortolà i Font
Bon dia,

La Generalitat valenciana vol fer servir en Apertium les denominacions
oficials dels noms dels municipis valencians (en total 542).

Per exemple, en traduccions spa>cat caldria fer (d'aquests n'hi ha uns 120
casos):
Orihuela>Orihuela
Cheste>Cheste

Supose que en la traducció cat>spa, seguint el mateix criteri, caldria fer:
València > València
Castelló de la Plana > Castelló de la Plana
(Pots confirmar que voleu això, Donís?)

En els casos en què hi ha doble denominació oficial, podria quedar
lògicament així:
Alcoy<>Alcoi
Náquera<>Nàquera
...

Tot això des del punt de vista estrictament lingüístic no és satisfactori.
Idealment hauria de ser opcional.

Xavi: ¿Creus que podríem fer-ho opcional igual que amb les noves normes
dels diacrítics? Que hi haja modes diferents, però que no implique que es
compile un altre traductor. Ara, si anem afegint opcions d'aquestes, ¿el
nombre de modes es multiplica x2 cada vegada (creix exponencialment)? És
manejable?

Si no és així, quedaria dins de la variant val_gva. I els que facen servir
aquesta variant, s'hauria de resignar a fer les traduccions només amb
aquest criteri.

Hi ha un altre tema relacionat amb els topònims que cal tenir en compte:
l'article. En alguns topònims en català la preferència és posar l'article,
i en espanyol no es posa mai o es posa menys. En la pràctica, en el text
original es poden donar totes les possibilitats (que hi haja o no article
tant en català com en espanyol), i per tant han d'estar previstes. Això
està resolt ací[1] per a la traducció spa>cat. Però falta afegir-hi molts
més casos, cosa que és laboriosa.

Salutacions,
Jaume Ortolà

[1]
https://github.com/apertium/apertium-spa-cat/blob/master/apertium-spa-cat.spa-cat.metalrx#L7427





Salutacions,
Jaume Ortolà
www.riuraueditors.cat
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] Acrònims per a unitats

2019-06-08 Thread Jaume Ortolà i Font
Em sembla molt bé, Hèctor. Si vols fer "neteja", per mi avant. De fet, em
penso que val més fer-la ara (que saps on s'ha de fer) que no deixar-ho per
a no se sap quan.

Salutacions,
Jaume Ortolà



Missatge de Hèctor Alòs i Font  del dia ds., 8 de
juny 2019 a les 21:18:

> Tenim un petit cacau amb les unitats del tipus g, kg, m, km, l, ml, etc.:
>
> echo "g mg kg mm cm m km l dl ml s" | apertium -d . cat-disam
> ""
> "g" n f sg
> ""
> "mg" n m sp
> ""
> "kg" n m sp
> ""
> "mm" n m sp
> ""
> "cm" n acr m sp
> ""
> "m" n f sg
> "m" n acr m sp
> ""
> "km" n acr m sp
> ""
> "l" n m sp
> "l" n f sg
> ""
> "dl" n m sp
> ""
> "ml" n m sp
> ""
> "s" n f sg
> "<.>"
> "." sent
>
> Cada vegada que es fa un traductor a o del català, cal anar esbrinant com
> està codificada cada unitat de mesura. N'he creat les més habituals com a
> n.acr.m.sp:
> * n: perquè són noms i aquesta informació ajuda a la desambiguació
> * acr: perquè són acrònims
> * m: perquè les unitats que he posat són de gènere masculí (metres, grams,
> litres i derivats)
> * sp: perquè no hi ha diferència de nombre en "m", "kg", etc.
> Trobo que és millor incloure les dades morfològiques (part de l'oració,
> gènere i nombre) perquè ajuda tant a la desambiguació morfològica com a la
> generació del gènere i nombre convenient (per tant és millot que "acr"
> sense més).
>
> No he esborrat res del que hi havia per no fer mal a ningú, però no seria
> sobrer fer neteja alguna vegada.
>
> Cordialment,
> Hèctor
> ___
> Apertium-catala mailing list
> Apertium-catala@lists.sourceforge.net
> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] denominacions oficials de municipis valencians

2019-06-11 Thread Jaume Ortolà i Font
Missatge de Xavi Ivars  del dia dt., 11 de juny 2019
a les 9:26:

>
> No estic segur que siga una bona idea fer-ho així. Com a Jaume, no
>> m'agrada gens la idea de tindre noms de pobles en valencià (com València o
>> Castelló) en textos en castellà, ni tindre "Orihuela" o "Torrevieja" textos
>> en valencià. Entenc que la GVA vulga utilitzar els noms oficials, però
>> segurament això hauria de restringir-se a documents oficials, i el Apertium
>> es-ca_valencia s'utilitza per a més que la documentació oficial.
>>
>
En el sentit cat>spa (València>Valencia/València) no hem fet res. Ho he
preguntat unes quantes voltes però Donís no m'ha respost. I de fet, per no
complicar la cosa, m'estime més que es quede així, encara que és totalment
incoherent.

Pensem en alguna solució.

Fer el mateix que vam fer amb els diacrítics (amb un fitxer de postedició)
em pareix que seria massa complicació, i crec que no val la pena.

Es podria fer que la compilació del diccionari bilingüe ignorés unes
entrades o unes altres segons una etiqueta. Tindríem aquestes dues
entrades, i n'ignoraríem una o l'altra segons el cas:
Orihuela
  Orihuela
Orihuela
   Oriola

Això no serviria per a fer un traductor amb opcions de traducció, però
almenys serviria per a genera el traductor desitjat en cada cas.

Jaume
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] Acrònims per a unitats

2019-06-09 Thread Jaume Ortolà i Font
Un cas que s'haurà de valorar també és de les lletres soltes (m, s, l...).
Poden ser unitats (i per tant, masc sing/pl) o també simplement noms de
lletra (i per tant, fem sing).

Salutacions,
Jaume Ortolà



Missatge de Hèctor Alòs i Font  del dia dg., 9 de
juny 2019 a les 11:57:

> Molt bé. Deixaré passar un parell de dies feiners per si algú hi té res a
> dir. Altrament, provaré de posar-m'hi el dimecres.
> Cordialment,
> Hèctor
>
> Missatge de Jaume Ortolà i Font  del dia ds., 8 de
> juny 2019 a les 23:59:
>
>> Em sembla molt bé, Hèctor. Si vols fer "neteja", per mi avant. De fet, em
>> penso que val més fer-la ara (que saps on s'ha de fer) que no deixar-ho per
>> a no se sap quan.
>>
>> Salutacions,
>> Jaume Ortolà
>>
>>
>>
>> Missatge de Hèctor Alòs i Font  del dia ds., 8 de
>> juny 2019 a les 21:18:
>>
>>> Tenim un petit cacau amb les unitats del tipus g, kg, m, km, l, ml, etc.:
>>>
>>> echo "g mg kg mm cm m km l dl ml s" | apertium -d . cat-disam
>>> ""
>>> "g" n f sg
>>> ""
>>> "mg" n m sp
>>> ""
>>> "kg" n m sp
>>> ""
>>> "mm" n m sp
>>> ""
>>> "cm" n acr m sp
>>> ""
>>> "m" n f sg
>>> "m" n acr m sp
>>> ""
>>> "km" n acr m sp
>>> ""
>>> "l" n m sp
>>> "l" n f sg
>>> ""
>>> "dl" n m sp
>>> ""
>>> "ml" n m sp
>>> ""
>>> "s" n f sg
>>> "<.>"
>>> "." sent
>>>
>>> Cada vegada que es fa un traductor a o del català, cal anar esbrinant
>>> com està codificada cada unitat de mesura. N'he creat les més habituals com
>>> a n.acr.m.sp:
>>> * n: perquè són noms i aquesta informació ajuda a la desambiguació
>>> * acr: perquè són acrònims
>>> * m: perquè les unitats que he posat són de gènere masculí (metres,
>>> grams, litres i derivats)
>>> * sp: perquè no hi ha diferència de nombre en "m", "kg", etc.
>>> Trobo que és millor incloure les dades morfològiques (part de l'oració,
>>> gènere i nombre) perquè ajuda tant a la desambiguació morfològica com a la
>>> generació del gènere i nombre convenient (per tant és millot que "acr"
>>> sense més).
>>>
>>> No he esborrat res del que hi havia per no fer mal a ningú, però no
>>> seria sobrer fer neteja alguna vegada.
>>>
>>> Cordialment,
>>> Hèctor
>>> ___
>>> Apertium-catala mailing list
>>> Apertium-catala@lists.sourceforge.net
>>> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>>>
>>
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] denominacions oficials de municipis valencians

2019-06-11 Thread Jaume Ortolà i Font
Una altra manera de plantejar la solució seria dir que és com un mode (o un
submode de val_gva). Però s'hauria de compilar només per a posar el
programa en producció. Quan estem desenvolupant no (si no ho demanes
explícitament) perquè ja és massa lent el procés ara. ¿Té sentit això que
dic? ¿Seria possible fer-ho així?

Salutacions,
Jaume Ortolà

Missatge de Jaume Ortolà i Font  del dia dt., 11 de
juny 2019 a les 9:55:

> Missatge de Xavi Ivars  del dia dt., 11 de juny
> 2019 a les 9:26:
>
>>
>> No estic segur que siga una bona idea fer-ho així. Com a Jaume, no
>>> m'agrada gens la idea de tindre noms de pobles en valencià (com València o
>>> Castelló) en textos en castellà, ni tindre "Orihuela" o "Torrevieja" textos
>>> en valencià. Entenc que la GVA vulga utilitzar els noms oficials, però
>>> segurament això hauria de restringir-se a documents oficials, i el Apertium
>>> es-ca_valencia s'utilitza per a més que la documentació oficial.
>>>
>>
> En el sentit cat>spa (València>Valencia/València) no hem fet res. Ho he
> preguntat unes quantes voltes però Donís no m'ha respost. I de fet, per no
> complicar la cosa, m'estime més que es quede així, encara que és totalment
> incoherent.
>
> Pensem en alguna solució.
>
> Fer el mateix que vam fer amb els diacrítics (amb un fitxer de postedició)
> em pareix que seria massa complicació, i crec que no val la pena.
>
> Es podria fer que la compilació del diccionari bilingüe ignorés unes
> entrades o unes altres segons una etiqueta. Tindríem aquestes dues
> entrades, i n'ignoraríem una o l'altra segons el cas:
> Orihuela
>   Orihuela
> Orihuela
>  Oriola
>
> Això no serviria per a fer un traductor amb opcions de traducció, però
> almenys serviria per a genera el traductor desitjat en cada cas.
>
> Jaume
>
>
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


[Apertium-catala] criteris sobre municipis valencians (en espanyol)

2019-06-20 Thread Jaume Ortolà i Font
Bon dia,

Ho plantege en la llista perquè caldria fixar uns criteris en les formes
dels municipis valencians.

En català, tenim diferents criteris que podem aplicar. Les coses són prou
clares. Podem fer servir el nom oficial, el nom valencià, i encara podríem
fer servir un criteri territorial (que de moment no ha proposat ningú).
Hauríem de mirar de generar la traducció amb el nom oficial o amb el nom
valencià opcionalment. Ara, el criteri oficial només és útil per a
situacions molt concretes (p. ex. el DOGV). Fora d'aquest àmbit, és molt
estrany escriure Torrevieja al costat de Saragossa.

En espanyol, en canvi, hi ha dubtes, i no tinc del tot clar quins haurien
de ser els criteris.

* Segons el criteri oficial hauríem de fer:
València (oficialment valencià)
Castelló de la Plana (oficialment valencià)
Alicante (oficialment bilingüe)
Torrevieja (oficialment castellà)
Alcoy  (oficialment bilingüe)
Carcaixent (oficialment valencià)
Calp (oficialment valencià)
Benissa (oficialment valencià)

A mi em sona molt "desafinat" escriure "València", "Castelló" i "Alicante"
en textos en castellà. En altres casos, la veritat és que no (o no tant):
Carcaixent, Calp, etc.

* Segons un criteri lingüístic (p. ex. es.wikipedia.org), hauríem de fer:
Valencia
Castellón de la Plana
Alicante
Torrevieja
Alcoy
Carcagente
Calpe
Benisa

Això sona també desafinat per uns altres motius.

No tinc una solució clara. Ara mateix potser seguiria el criteri oficial,
amb l'única excepció de València i Castelló, almenys per a evitar la
combinació "València, Castelló, Alicante". (I potser caldria tenir l'opció
del criteri oficial per a àmbits com el DOGV.)

Què en penseu?

Atentament,
Jaume Ortolà
















Salutacions,
Jaume Ortolà
www.riuraueditors.cat
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] denominacions oficials de municipis valencians

2019-06-10 Thread Jaume Ortolà i Font
Donís,

He posat els canvis ací:
https://github.com/apertium/apertium-spa-cat/commit/c16b8adbf6eafe71a40af3364099977311357eec

Això convenia fer-ho de totes maneres per a fer neteja i assegurar-nos que
no hi ha errors.

Ara falta veure si ens quedem amb aquesta manera de fer-ho.

Amb els tests veurem si hi ha problemes. S'ha de resoldre alguna
ambigüitat, com ara Millars>Millares (poble) o Mijares (riu).
Alguns dels noms amb article també s'han de revisar i potser cal
escriure'ls d'una altra manera.

Salutacions,
Jaume Ortolà



Missatge de Jaume Ortolà i Font  del dia dl., 10 de
juny 2019 a les 11:11:

> Donís,
>
> És veritat que quan es va fer la normativa nova dels diacrítics va
> haver-hi un petit problema de configuració (no es detectava correctament el
> nom del nou mode que es va crear). Això es va resoldre en paral·lel, per
> una banda els informàtics de la Generalitat i per l'altra ací crec que ens
> ho va resoldre Joan Moratinos. Això ja està arreglat i no hauria de tornar
> a passar.
>
> La manera més ràpida i més segura és evidentment posar-ho en la variant
> "val_gva", i fora. Com ja he dit, això serà insatisfactori per a altres
> usuaris. Però de moment es pot fer això. I ja veurem si trobem una altra
> solució.
>
> No has dit res del sentit contrari: València  (cat) > València/Valencia?
> (spa). La gent es podria queixar pel mateix motiu que en la traducció
> spa>cat, i per no aplicar criteris coherents. A mi, personalment, no
> m'agrada gens un text en castellà ple de "València" i "Castelló", però és
> el que s'hauria de fer per coherència.
>
> Salutacions,
> Jaume Ortolà
>
>
>
> Missatge de Donís Seguí  del dia dg., 9 de juny
> 2019 a les 21:11:
>
>> Hola a tots.
>>
>> Jaume, vaig parlar divendres amb Imma Àngel, la cap de servei. Volen que
>> fem, i tan ràpidament com siga possible (m'estan insistint cada dia), els
>> canvis en els topònims valencians. Volen que s'opte, en la traducció a
>> valencià, sempre pel nom oficial. Nosaltres tenim preparat (ho deus haver
>> vist en l'excel compartit), una llista amb els que s'han de canviar. Volen
>> que traduïsca sempre pel nom oficial, tant si és de domini lingüístic
>> castellà com valencià.
>>
>> Ja vam parlar que hi ha dues possibilitats, proposar que opten per
>> criteri territorial o nom oficials, com fa el corrector, o, com has
>> proposat en el correu anterior, afegir una marca GVA. Hauríem d'optar per
>> la més segura, i potser, per la més ràpida. També hem de pensar que a
>> l'hora de fer les actualitzacions, siga operatiu. Crec recordar que J. M.
>> Navarro, l'infomàtic de la casa que s'encarrega de fer-les, va comentar un
>> dia que si optàvem per posar opciones en el traductor dificultaría molt les
>> actualizacions. Demà parlaré amb ell, que divendres no vaig poder, perquè
>> em comente coses.
>>
>>
>> Salut
>>
>>
>> Donís Seguí
>>
>> Missatge de Jaume Ortolà i Font  del dia dv., 7
>> de juny 2019 a les 10:28:
>>
>>> Bon dia,
>>>
>>> La Generalitat valenciana vol fer servir en Apertium les denominacions
>>> oficials dels noms dels municipis valencians (en total 542).
>>>
>>> Per exemple, en traduccions spa>cat caldria fer (d'aquests n'hi ha uns
>>> 120 casos):
>>> Orihuela>Orihuela
>>> Cheste>Cheste
>>>
>>> Supose que en la traducció cat>spa, seguint el mateix criteri, caldria
>>> fer:
>>> València > València
>>> Castelló de la Plana > Castelló de la Plana
>>> (Pots confirmar que voleu això, Donís?)
>>>
>>> En els casos en què hi ha doble denominació oficial, podria quedar
>>> lògicament així:
>>> Alcoy<>Alcoi
>>> Náquera<>Nàquera
>>> ...
>>>
>>> Tot això des del punt de vista estrictament lingüístic no és
>>> satisfactori. Idealment hauria de ser opcional.
>>>
>>> Xavi: ¿Creus que podríem fer-ho opcional igual que amb les noves normes
>>> dels diacrítics? Que hi haja modes diferents, però que no implique que es
>>> compile un altre traductor. Ara, si anem afegint opcions d'aquestes, ¿el
>>> nombre de modes es multiplica x2 cada vegada (creix exponencialment)? És
>>> manejable?
>>>
>>> Si no és així, quedaria dins de la variant val_gva. I els que facen
>>> servir aquesta variant, s'hauria de resignar a fer les traduccions només
>>> amb aquest criteri.
>>>
>>> Hi ha un altre tema relacionat amb els topònims que cal tenir en compte:
>

Re: [Apertium-catala] Acrònims per a unitats

2019-06-10 Thread Jaume Ortolà i Font
Anirem mirant els problemes que apunta Donís. Alguns crec que ja estan
resolts.

Una altra cosa que cal fer és vigilar què passa quan són lletres que formen
part d'un nom propi, p. ex. Josep L. Garcia. Idealment s'haurien
d'analitzar com a nom propi per a assegurar-nos que altres regles funcionen
bé.

Salutacions,
Jaume Ortolà


Missatge de Donís Seguí  del dia dg., 9 de juny 2019
a les 21:01:

> Bon dia, ja que tractem un tema paregut volia comentar un error que m'han
> retret més d'una vegada. Quan apareix en castellà *D.*, que en molts
> casos pots formar part d'una sigla o simplement la numeració d'un apartat,
> interpreta que és el tractament de Don i tradueix per *Sr.* Això ho podem
> solucionar d'alguna manera?
>
> I pel que fa a les lletres soltes, no sé si ha ho heu tractat ací alguna
> vegada. Les lletres *Y,* conjunció, que tradueix per *I* quan va solta, i
> això, en l'àmbit de les matematiques és un problema. El mateix passa amb la
> conjunció *U*, en castellà. L'altre dia em vaig trobar unes figures d'uns
> quadrilàters, en que els vèrtex s'anomenaven *R, S, T,* i *U.* El
> programa va traduir* R, S, T, O.*
> M'imagine que aquests casos no són fàcils de resoldre. En el mateix cas,
> la lletra *e*, tant majúscula com minúscula, tradueix per *I*. Fins i tot
> si va seguida de parèntesi per a enumerar un apartat. Així, trobem* a),
> b), c), d) i)*
>
>
> Donís
>
> Missatge de Hèctor Alòs i Font  del dia dg., 9 de
> juny 2019 a les 14:22:
>
>> Mai no he sabut gaire què fer amb les lletres soltes. Poden ser noms de
>> lletra o noms de variable o inicials de persona o infinitat de coses. Per
>> això no sé com seria millor tractar-les. "Endevinem" i posem "n.acr.m.sg",
>> o bé posem "n.acr.mf.sp" o potser posem només "acr"? Posar "m" en el gènere
>> farà que "I. Arrimadas" es considerarà de totes totes un home. No sé quina
>> opció seria millor, però, de fer-ho, eliminaríem molts asteriscs, cosa bona.
>>
>> Cordialment,
>> Hèctor
>>
>> Missatge de Jaume Ortolà i Font  del dia dg., 9
>> de juny 2019 a les 13:05:
>>
>>> Un cas que s'haurà de valorar també és de les lletres soltes (m, s,
>>> l...). Poden ser unitats (i per tant, masc sing/pl) o també simplement noms
>>> de lletra (i per tant, fem sing).
>>>
>>> Salutacions,
>>> Jaume Ortolà
>>>
>>>
>>>
>>> Missatge de Hèctor Alòs i Font  del dia dg., 9 de
>>> juny 2019 a les 11:57:
>>>
>>>> Molt bé. Deixaré passar un parell de dies feiners per si algú hi té res
>>>> a dir. Altrament, provaré de posar-m'hi el dimecres.
>>>> Cordialment,
>>>> Hèctor
>>>>
>>>> Missatge de Jaume Ortolà i Font  del dia ds., 8
>>>> de juny 2019 a les 23:59:
>>>>
>>>>> Em sembla molt bé, Hèctor. Si vols fer "neteja", per mi avant. De fet,
>>>>> em penso que val més fer-la ara (que saps on s'ha de fer) que no deixar-ho
>>>>> per a no se sap quan.
>>>>>
>>>>> Salutacions,
>>>>> Jaume Ortolà
>>>>>
>>>>>
>>>>>
>>>>> Missatge de Hèctor Alòs i Font  del dia ds., 8
>>>>> de juny 2019 a les 21:18:
>>>>>
>>>>>> Tenim un petit cacau amb les unitats del tipus g, kg, m, km, l, ml,
>>>>>> etc.:
>>>>>>
>>>>>> echo "g mg kg mm cm m km l dl ml s" | apertium -d . cat-disam
>>>>>> ""
>>>>>> "g" n f sg
>>>>>> ""
>>>>>> "mg" n m sp
>>>>>> ""
>>>>>> "kg" n m sp
>>>>>> ""
>>>>>> "mm" n m sp
>>>>>> ""
>>>>>> "cm" n acr m sp
>>>>>> ""
>>>>>> "m" n f sg
>>>>>> "m" n acr m sp
>>>>>> ""
>>>>>> "km" n acr m sp
>>>>>> ""
>>>>>> "l" n m sp
>>>>>> "l" n f sg
>>>>>> ""
>>>>>> "dl" n m sp
>>>>>> ""
>>>>>> "ml" n m sp
>>>>>> ""
>>>>>> "s" n f sg
>>>>>> "<.>"
>>>>>> "." sent
>>>>>>
&

Re: [Apertium-catala] sol, sola, sols, soles adv

2019-06-10 Thread Jaume Ortolà i Font
Missatge de Hèctor Alòs i Font  del dia dg., 9 de
juny 2019 a les 14:12:

> D'aquestes formes només "sols" s'analitza com a adv, però, per alguna raó,
> no se'n permet la generació.
>

Hèctor,

Si vols generar "sols" com a adverbi, em penso que no hi ha cap problema.
Elimina la marca r="LR" i ja està. Això no ha de causar cap inconvenient.
De fet, en la traducció spa>cap, miraŕe si convé fer servir "sols" en algun
cas en lloc de posar sempre "només".

Jaume
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] denominacions oficials de municipis valencians

2019-06-10 Thread Jaume Ortolà i Font
Donís,

És veritat que quan es va fer la normativa nova dels diacrítics va haver-hi
un petit problema de configuració (no es detectava correctament el nom del
nou mode que es va crear). Això es va resoldre en paral·lel, per una banda
els informàtics de la Generalitat i per l'altra ací crec que ens ho va
resoldre Joan Moratinos. Això ja està arreglat i no hauria de tornar a
passar.

La manera més ràpida i més segura és evidentment posar-ho en la variant
"val_gva", i fora. Com ja he dit, això serà insatisfactori per a altres
usuaris. Però de moment es pot fer això. I ja veurem si trobem una altra
solució.

No has dit res del sentit contrari: València  (cat) > València/Valencia?
(spa). La gent es podria queixar pel mateix motiu que en la traducció
spa>cat, i per no aplicar criteris coherents. A mi, personalment, no
m'agrada gens un text en castellà ple de "València" i "Castelló", però és
el que s'hauria de fer per coherència.

Salutacions,
Jaume Ortolà



Missatge de Donís Seguí  del dia dg., 9 de juny 2019
a les 21:11:

> Hola a tots.
>
> Jaume, vaig parlar divendres amb Imma Àngel, la cap de servei. Volen que
> fem, i tan ràpidament com siga possible (m'estan insistint cada dia), els
> canvis en els topònims valencians. Volen que s'opte, en la traducció a
> valencià, sempre pel nom oficial. Nosaltres tenim preparat (ho deus haver
> vist en l'excel compartit), una llista amb els que s'han de canviar. Volen
> que traduïsca sempre pel nom oficial, tant si és de domini lingüístic
> castellà com valencià.
>
> Ja vam parlar que hi ha dues possibilitats, proposar que opten per criteri
> territorial o nom oficials, com fa el corrector, o, com has proposat en el
> correu anterior, afegir una marca GVA. Hauríem d'optar per la més segura, i
> potser, per la més ràpida. També hem de pensar que a l'hora de fer les
> actualitzacions, siga operatiu. Crec recordar que J. M. Navarro,
> l'infomàtic de la casa que s'encarrega de fer-les, va comentar un dia que
> si optàvem per posar opciones en el traductor dificultaría molt les
> actualizacions. Demà parlaré amb ell, que divendres no vaig poder, perquè
> em comente coses.
>
>
> Salut
>
>
> Donís Seguí
>
> Missatge de Jaume Ortolà i Font  del dia dv., 7 de
> juny 2019 a les 10:28:
>
>> Bon dia,
>>
>> La Generalitat valenciana vol fer servir en Apertium les denominacions
>> oficials dels noms dels municipis valencians (en total 542).
>>
>> Per exemple, en traduccions spa>cat caldria fer (d'aquests n'hi ha uns
>> 120 casos):
>> Orihuela>Orihuela
>> Cheste>Cheste
>>
>> Supose que en la traducció cat>spa, seguint el mateix criteri, caldria
>> fer:
>> València > València
>> Castelló de la Plana > Castelló de la Plana
>> (Pots confirmar que voleu això, Donís?)
>>
>> En els casos en què hi ha doble denominació oficial, podria quedar
>> lògicament així:
>> Alcoy<>Alcoi
>> Náquera<>Nàquera
>> ...
>>
>> Tot això des del punt de vista estrictament lingüístic no és
>> satisfactori. Idealment hauria de ser opcional.
>>
>> Xavi: ¿Creus que podríem fer-ho opcional igual que amb les noves normes
>> dels diacrítics? Que hi haja modes diferents, però que no implique que es
>> compile un altre traductor. Ara, si anem afegint opcions d'aquestes, ¿el
>> nombre de modes es multiplica x2 cada vegada (creix exponencialment)? És
>> manejable?
>>
>> Si no és així, quedaria dins de la variant val_gva. I els que facen
>> servir aquesta variant, s'hauria de resignar a fer les traduccions només
>> amb aquest criteri.
>>
>> Hi ha un altre tema relacionat amb els topònims que cal tenir en compte:
>> l'article. En alguns topònims en català la preferència és posar l'article,
>> i en espanyol no es posa mai o es posa menys. En la pràctica, en el text
>> original es poden donar totes les possibilitats (que hi haja o no article
>> tant en català com en espanyol), i per tant han d'estar previstes. Això
>> està resolt ací[1] per a la traducció spa>cat. Però falta afegir-hi molts
>> més casos, cosa que és laboriosa.
>>
>> Salutacions,
>> Jaume Ortolà
>>
>> [1]
>> https://github.com/apertium/apertium-spa-cat/blob/master/apertium-spa-cat.spa-cat.metalrx#L7427
>>
>>
>>
>>
>>
>> Salutacions,
>> Jaume Ortolà
>> www.riuraueditors.cat
>>
>
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


[Apertium-catala] majúscules i minúscules

2019-05-19 Thread Jaume Ortolà i Font
Bon dia,

He intentat posar una mica d'ordre en la traducció spa-cat de les
abreviatures: aC, dC, a. de C. i equivalents.

La cosa es complica una mica perquè en català les formes preferides ara són
aC i dC, però en castellà aquestes formes són rebutjades.

El problema és que sense poder discriminar clarament majúscules i
minúscules apareixen problemes amb aC i AC. ¿Hi ha alguna manera de
diferenciar les majúscules?

Salutacions,
Jaume Ortolà
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] Problemes traduint documents .docx

2019-05-01 Thread Jaume Ortolà i Font
No en conec els detalls. El que proposa Joan Moratinos és eliminar les
etiquetes que no tenen sentit perquè estan enmig d'una paraula, per exemple
una cursiva que talla una paraula pel mig. Això, en algun cas, pot provocar
efectes no desitjats, però en general sembla una opció raonable. Val més
que es perda una cursiva o altres etiquetes (probablement mal posades) que
no fer una mala traducció.

Salutacions,
Jaume Ortolà

Missatge de Mikel L. Forcada  del dia dc., 1 de maig 2019 a
les 10:53:

> No és gens fàcil. Per a nosaltres, qualsevol etiqueta de format funciona
> com un blanc i parteix les paraules.
>
> Per a arreglar-ho caldria canviar completament la gestió de format actual.
>
> Mikel
>
>
> El 30/4/19 a les 23:19, Donís Seguí ha escrit:
>
> Bon dia,
>
> Sóc Donís, el coordinador, per part de la Conselleria, del programa salt,
> basat en Apertium, com bé sabeu. Com ha dit Jaume, des de la Conselleria
> d'Educació estem molt interessats en aquest tema. Jaume i jo n'hem parlat
> moltes vegades, és un dels problemes que la gent tira més en cara del nou
> Salt. Hauríem de mirar com es pot aplicar aquest script, ja que seria una
> millora molt important per al programa.
>
> Salutacions
> Donís Seguí
>
>
>
> Missatge de Jaume Ortolà i Font  del dia dt., 30
> d’abr. 2019 a les 15:58:
>
>> Joan,
>>
>> Ho he provat amb un cas senzill de cursiva enmig de paraula i
>> efectivament fa bé la traducció, cosa que no passa en la versió actual
>> d'Apertium.
>> Si es pogués incorporar aquesta millora, seria un avantatge important per
>> a tothom. Via 'pull request' potser?
>>
>> Salutacions,
>> Jaume Ortolà
>>
>>
>>
>> Missatge de Joan Moratinos Jaume  del dia dt., 30
>> d’abr. 2019 a les 12:47:
>>
>>> Ho pots provar a https://apertium.jmoratinos.com/dev/
>>>
>>> On Tue, 30 Apr 2019 at 12:44, Jaume Ortolà i Font 
>>> wrote:
>>>
>>>> Bon dia, Joan.
>>>>
>>>> Això pot ser molt interessant. Sé que hi havia gent desesperada amb
>>>> aquest problema, i que necessitaven urgentment solucions. Per exemple, a la
>>>> conselleria de cultura de la Generalitat valenciana, però supose que és una
>>>> necessitat general per a tota la comunitat d'Apertium.
>>>>
>>>> Jo no hi estic implicat directament, i no sé si ja ho tenen resolt.
>>>> Tampoc no sé fins a quin punt pot ajudar la teua solució. Com ho podríem
>>>> provar?
>>>>
>>>> Segur que hi ha gent de la llista que està al corrent de la qüestió.
>>>>
>>>> Salutacions,
>>>> Jaume Ortolà
>>>>
>>>> Missatge de Joan Moratinos Jaume  del dia dt.,
>>>> 30 d’abr. 2019 a les 12:36:
>>>>
>>>>> He detectat que de vegades paraules corrents es tradueixen malament en
>>>>> documents .docx (de Microsoft Word). La culpa del problema són divisions
>>>>> enmig de les paraules, volguts (p.e. una paraula mig en cursiva) o espuris
>>>>> (generats per Word). He fet un petit programa en Python que reemplaça un
>>>>> script d'awk dins /usr/local/bin/apertium. Si detecta una paraula
>>>>> migpartida entre dos o més tags, l'agrupa tota en el primer i esborra els
>>>>> eventuals tags superflus. El resultat de la traducció és millor que
>>>>> l'original.
>>>>>
>>>>>
>>>>> --
>>>>> Joan Moratinos
>>>>> jmorati...@gmail.com
>>>>> ___
>>>>> Apertium-catala mailing list
>>>>> Apertium-catala@lists.sourceforge.net
>>>>> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>>>>>
>>>>
>>>
>>> --
>>> Joan Moratinos
>>> jmorati...@gmail.com
>>>
>> ___
>> Apertium-catala mailing list
>> Apertium-catala@lists.sourceforge.net
>> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>>
>
>
> ___
> Apertium-catala mailing 
> listApertium-catala@lists.sourceforge.nethttps://lists.sourceforge.net/lists/listinfo/apertium-catala
>
> --
> Mikel L. Forcada  http://www.dlsi.ua.es/~mlf/
> Departament de Llenguatges i Sistemes Informàtics
> Universitat d'Alacant
> E-03690 Sant Vicent del Raspeig
> Spain
> Office: +34 96 590 9776
>
>
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] Problemes traduint documents .docx

2019-04-30 Thread Jaume Ortolà i Font
Bon dia, Joan.

Això pot ser molt interessant. Sé que hi havia gent desesperada amb aquest
problema, i que necessitaven urgentment solucions. Per exemple, a la
conselleria de cultura de la Generalitat valenciana, però supose que és una
necessitat general per a tota la comunitat d'Apertium.

Jo no hi estic implicat directament, i no sé si ja ho tenen resolt. Tampoc
no sé fins a quin punt pot ajudar la teua solució. Com ho podríem provar?

Segur que hi ha gent de la llista que està al corrent de la qüestió.

Salutacions,
Jaume Ortolà

Missatge de Joan Moratinos Jaume  del dia dt., 30
d’abr. 2019 a les 12:36:

> He detectat que de vegades paraules corrents es tradueixen malament en
> documents .docx (de Microsoft Word). La culpa del problema són divisions
> enmig de les paraules, volguts (p.e. una paraula mig en cursiva) o espuris
> (generats per Word). He fet un petit programa en Python que reemplaça un
> script d'awk dins /usr/local/bin/apertium. Si detecta una paraula
> migpartida entre dos o més tags, l'agrupa tota en el primer i esborra els
> eventuals tags superflus. El resultat de la traducció és millor que
> l'original.
>
>
> --
> Joan Moratinos
> jmorati...@gmail.com
> ___
> Apertium-catala mailing list
> Apertium-catala@lists.sourceforge.net
> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] Problemes traduint documents .docx

2019-04-30 Thread Jaume Ortolà i Font
Joan,

Ho he provat amb un cas senzill de cursiva enmig de paraula i efectivament
fa bé la traducció, cosa que no passa en la versió actual d'Apertium.
Si es pogués incorporar aquesta millora, seria un avantatge important per a
tothom. Via 'pull request' potser?

Salutacions,
Jaume Ortolà



Missatge de Joan Moratinos Jaume  del dia dt., 30
d’abr. 2019 a les 12:47:

> Ho pots provar a https://apertium.jmoratinos.com/dev/
>
> On Tue, 30 Apr 2019 at 12:44, Jaume Ortolà i Font 
> wrote:
>
>> Bon dia, Joan.
>>
>> Això pot ser molt interessant. Sé que hi havia gent desesperada amb
>> aquest problema, i que necessitaven urgentment solucions. Per exemple, a la
>> conselleria de cultura de la Generalitat valenciana, però supose que és una
>> necessitat general per a tota la comunitat d'Apertium.
>>
>> Jo no hi estic implicat directament, i no sé si ja ho tenen resolt.
>> Tampoc no sé fins a quin punt pot ajudar la teua solució. Com ho podríem
>> provar?
>>
>> Segur que hi ha gent de la llista que està al corrent de la qüestió.
>>
>> Salutacions,
>> Jaume Ortolà
>>
>> Missatge de Joan Moratinos Jaume  del dia dt., 30
>> d’abr. 2019 a les 12:36:
>>
>>> He detectat que de vegades paraules corrents es tradueixen malament en
>>> documents .docx (de Microsoft Word). La culpa del problema són divisions
>>> enmig de les paraules, volguts (p.e. una paraula mig en cursiva) o espuris
>>> (generats per Word). He fet un petit programa en Python que reemplaça un
>>> script d'awk dins /usr/local/bin/apertium. Si detecta una paraula
>>> migpartida entre dos o més tags, l'agrupa tota en el primer i esborra els
>>> eventuals tags superflus. El resultat de la traducció és millor que
>>> l'original.
>>>
>>>
>>> --
>>> Joan Moratinos
>>> jmorati...@gmail.com
>>> ___
>>> Apertium-catala mailing list
>>> Apertium-catala@lists.sourceforge.net
>>> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>>>
>>
>
> --
> Joan Moratinos
> jmorati...@gmail.com
>
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] l'altre

2019-07-04 Thread Jaume Ortolà i Font
He eliminat les entrades que donen det+det, i per tant no seran afectades
per la regla que no permet det+det. O simplement no cal crear aquesta regla.

https://github.com/apertium/apertium-cat/commit/b27998800d7a17001f61cd70f15eaff545226d57

Salutacions,
Jaume Ortolà


Missatge de Jaume Ortolà i Font  del dia dj., 4 de
jul. 2019 a les 12:20:

> D'acord. Avant.
>
> Jo potser després completaré les formes de "l'altre" com a determinant.
>
> Salutacions,
> Jaume Ortolà
>
>
> Missatge de Hèctor Alòs i Font  del dia dj., 4 de
> jul. 2019 a les 11:33:
>
>> De fet, posant a CG la regla que prohibeix Det + Det veig que se
>> solucionen errors de coordinació a les traduccions de català a castellà (i
>> no només de coordinació). Per altra banda, empitjora les traduccions amb
>> "els diversos" + N, que pasa de "los varios" a los "diversos". Una solució
>> molt senzilla és posar "vario" com a possible traducció de l'adjectiu
>> "divers" i triar sempre aquesta traducció quan l'aldjectiu va davant de
>> nom, i només quan va davant de nom (i semblantment en castellà). Ho puc fer
>> jo mateix en un moment.
>>
>> Missatge de Jaume Ortolà i Font  del dia dj., 4
>> de jul. 2019 a les 11:28:
>>
>>> Justament ara jo estava mirant això.
>>>
>>> El que hi ha ací crec que no m'afecta, i per tant es pot canviar "altre"
>>> a adjectiu. Però no n'estic segur del tot.
>>>
>>> Jo el que sí que afegiré és "l'altre" tot junt com a determinant. En les
>>> traduccions spa>cat de "los/las demás" tindrem que el conjunt pot ser
>>> pronom o determinant.
>>>
>>> Salutacions,
>>> Jaume Ortolà
>>>
>>>
>>> Missatge de Hèctor Alòs i Font  del dia dj., 4 de
>>> jul. 2019 a les 9:57:
>>>
>>>> Em trobo que per alguna raó està definit a apertium-cat la seqüència
>>>> "l'altre":
>>>>
>>>>  l'altre   el>>> n="def"/>altre>>> n="sg"/>
>>>>  l'altra   el>>> n="def"/>altre>>> n="sg"/>
>>>>  elsaltresel>>> n="def"/>altre>>> n="mf"/>
>>>>  lesaltresel>>> n="def"/>altre>>> n="mf"/>
>>>>
>>>> Dubto molt que calgui per a res, però si ho mantenim "altre" hauria de
>>>> ser adjectiu i no pas determinant. No crec que puguin haver-hi dos
>>>> determinants seguits. En tot cas, trenca les esquemes que tenim a t1x per a
>>>> la concordància interna dels SN.
>>>>
>>>> Ho mantenim? Ho mantenint canviant "altre" a adjectiu?
>>>>
>>>> Cordialment,
>>>> Hèctor
>>>> ___
>>>> Apertium-catala mailing list
>>>> Apertium-catala@lists.sourceforge.net
>>>> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>>>>
>>>
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] l'altre

2019-07-05 Thread Jaume Ortolà i Font
Les traduccions cat<>spa, en conjunt, han millorat molt. Han desaparegut
molts errors de concordança.

N'ha aparegut algun:
- Entre otras>otros posibles áreas

M'ha semblat veure'n algun més, però ara no els trobo.

Per a la desambiguació diversos/varios afegirem més restriccions (que
concordin adjectiu i nom), perquè hi ha algunes poques situacions en què no
funciona bé.

Salutacions,
Jaume Ortolà


Missatge de Hèctor Alòs i Font  del dia dj., 4 de
jul. 2019 a les 21:47:

> M'havia entretingut perquè la cosa no havia funcionat tal com pensava.
> Amb el canvi que has fet, sembla que no em cal fer res a apertium-cat.
> Tenia ja preparat el canvi a apertium-spa-cat, que he acabat pujant (
> https://github.com/apertium/apertium-spa-cat/commit/76be6f1826baf9f9dbf922688ea58f69f487ef3a
>  ).
> La situació era que, sembla que una mica per casualitat, es triava "varios"
> com a traducció de "diversos" només en la seqüència "dels diversos ".
> Ho he deixat així en la regla del fitxer de selecció lèxica, cosa que fa
> que gairebé no hi ha canvis amb tal com es traduïa abans. En els altres
> casos, "diversos" (cat) es tradueix (i es traduïa) com a "diversos" (spa)
> estigui davant o darrere del nom.
>
> Cordialment,
> Hèctor
>
> Missatge de Jaume Ortolà i Font  del dia dj., 4 de
> jul. 2019 a les 17:09:
>
>> He eliminat les entrades que donen det+det, i per tant no seran afectades
>> per la regla que no permet det+det. O simplement no cal crear aquesta regla.
>>
>>
>> https://github.com/apertium/apertium-cat/commit/b27998800d7a17001f61cd70f15eaff545226d57
>>
>> Salutacions,
>> Jaume Ortolà
>>
>>
>> Missatge de Jaume Ortolà i Font  del dia dj., 4
>> de jul. 2019 a les 12:20:
>>
>>> D'acord. Avant.
>>>
>>> Jo potser després completaré les formes de "l'altre" com a determinant.
>>>
>>> Salutacions,
>>> Jaume Ortolà
>>>
>>>
>>> Missatge de Hèctor Alòs i Font  del dia dj., 4 de
>>> jul. 2019 a les 11:33:
>>>
>>>> De fet, posant a CG la regla que prohibeix Det + Det veig que se
>>>> solucionen errors de coordinació a les traduccions de català a castellà (i
>>>> no només de coordinació). Per altra banda, empitjora les traduccions amb
>>>> "els diversos" + N, que pasa de "los varios" a los "diversos". Una solució
>>>> molt senzilla és posar "vario" com a possible traducció de l'adjectiu
>>>> "divers" i triar sempre aquesta traducció quan l'aldjectiu va davant de
>>>> nom, i només quan va davant de nom (i semblantment en castellà). Ho puc fer
>>>> jo mateix en un moment.
>>>>
>>>> Missatge de Jaume Ortolà i Font  del dia dj., 4
>>>> de jul. 2019 a les 11:28:
>>>>
>>>>> Justament ara jo estava mirant això.
>>>>>
>>>>> El que hi ha ací crec que no m'afecta, i per tant es pot canviar
>>>>> "altre" a adjectiu. Però no n'estic segur del tot.
>>>>>
>>>>> Jo el que sí que afegiré és "l'altre" tot junt com a determinant. En
>>>>> les traduccions spa>cat de "los/las demás" tindrem que el conjunt pot ser
>>>>> pronom o determinant.
>>>>>
>>>>> Salutacions,
>>>>> Jaume Ortolà
>>>>>
>>>>>
>>>>> Missatge de Hèctor Alòs i Font  del dia dj., 4
>>>>> de jul. 2019 a les 9:57:
>>>>>
>>>>>> Em trobo que per alguna raó està definit a apertium-cat la seqüència
>>>>>> "l'altre":
>>>>>>
>>>>>>  l'altre   el>>>>> n="def"/>altre>>>>> n="m"/>>>>>> n="sg"/>
>>>>>>  l'altra   el>>>>> n="def"/>altre>>>>> n="f"/>>>>>> n="sg"/>
>>>>>>  elsaltresel>>>>> n="def"/>altre>>>>> n="mf"/>
>>>>>>  lesaltresel>>>>> n="def"/>altre>>>>> n="mf"/>
>>>>>>
>>>>>> Dubto molt que calgui per a res, però si ho mantenim "altre" hauria
>>>>>> de ser adjectiu i no pas determinant. No crec que puguin haver-hi dos
>>>>>> determinants seguits. En tot cas, trenca les esquemes que tenim a t1x 
>>>>>> per a
>>>>>> la concordància interna dels SN.
>>>>>>
>>>>>> Ho mantenim? Ho mantenint canviant "altre" a adjectiu?
>>>>>>
>>>>>> Cordialment,
>>>>>> Hèctor
>>>>>> ___
>>>>>> Apertium-catala mailing list
>>>>>> Apertium-catala@lists.sourceforge.net
>>>>>> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>>>>>>
>>>>>
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] l'altre

2019-07-04 Thread Jaume Ortolà i Font
Ja he fet els canvis que volia fer.
Em penso que pots posar "altre" com a adjectiu sense massa problemes.
De totes maneres, crec que no és una mala opció considerar "l'altre" tot
junt com a determinant, ja que també tenim "l'altre" com a pronom. Això
cada parell de llengües pot fer-ho com més convingui. (En el conjunt
"l'altre/l'altra/els altres/les altres" no hi ha cap ambigüitat de gènere.)

Jaume


Missatge de Jaume Ortolà i Font  del dia dj., 4 de
jul. 2019 a les 10:28:

> Justament ara jo estava mirant això.
>
> El que hi ha ací crec que no m'afecta, i per tant es pot canviar "altre" a
> adjectiu. Però no n'estic segur del tot.
>
> Jo el que sí que afegiré és "l'altre" tot junt com a determinant. En les
> traduccions spa>cat de "los/las demás" tindrem que el conjunt pot ser
> pronom o determinant.
>
> Salutacions,
> Jaume Ortolà
>
>
> Missatge de Hèctor Alòs i Font  del dia dj., 4 de
> jul. 2019 a les 9:57:
>
>> Em trobo que per alguna raó està definit a apertium-cat la seqüència
>> "l'altre":
>>
>>  l'altre   el> n="def"/>altre> n="sg"/>
>>  l'altra   el> n="def"/>altre> n="sg"/>
>>  elsaltresel> n="def"/>altre> n="mf"/>
>>  lesaltresel> n="def"/>altre> n="mf"/>
>>
>> Dubto molt que calgui per a res, però si ho mantenim "altre" hauria de
>> ser adjectiu i no pas determinant. No crec que puguin haver-hi dos
>> determinants seguits. En tot cas, trenca les esquemes que tenim a t1x per a
>> la concordància interna dels SN.
>>
>> Ho mantenim? Ho mantenint canviant "altre" a adjectiu?
>>
>> Cordialment,
>> Hèctor
>> ___
>> Apertium-catala mailing list
>> Apertium-catala@lists.sourceforge.net
>> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>>
>
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] l'altre

2019-07-04 Thread Jaume Ortolà i Font
D'acord. Avant.

Jo potser després completaré les formes de "l'altre" com a determinant.

Salutacions,
Jaume Ortolà


Missatge de Hèctor Alòs i Font  del dia dj., 4 de
jul. 2019 a les 11:33:

> De fet, posant a CG la regla que prohibeix Det + Det veig que se
> solucionen errors de coordinació a les traduccions de català a castellà (i
> no només de coordinació). Per altra banda, empitjora les traduccions amb
> "els diversos" + N, que pasa de "los varios" a los "diversos". Una solució
> molt senzilla és posar "vario" com a possible traducció de l'adjectiu
> "divers" i triar sempre aquesta traducció quan l'aldjectiu va davant de
> nom, i només quan va davant de nom (i semblantment en castellà). Ho puc fer
> jo mateix en un moment.
>
> Missatge de Jaume Ortolà i Font  del dia dj., 4 de
> jul. 2019 a les 11:28:
>
>> Justament ara jo estava mirant això.
>>
>> El que hi ha ací crec que no m'afecta, i per tant es pot canviar "altre"
>> a adjectiu. Però no n'estic segur del tot.
>>
>> Jo el que sí que afegiré és "l'altre" tot junt com a determinant. En les
>> traduccions spa>cat de "los/las demás" tindrem que el conjunt pot ser
>> pronom o determinant.
>>
>> Salutacions,
>> Jaume Ortolà
>>
>>
>> Missatge de Hèctor Alòs i Font  del dia dj., 4 de
>> jul. 2019 a les 9:57:
>>
>>> Em trobo que per alguna raó està definit a apertium-cat la seqüència
>>> "l'altre":
>>>
>>>  l'altre   el>> n="def"/>altre>> n="sg"/>
>>>  l'altra   el>> n="def"/>altre>> n="sg"/>
>>>  elsaltresel>> n="def"/>altre>> n="mf"/>
>>>  lesaltresel>> n="def"/>altre>> n="mf"/>
>>>
>>> Dubto molt que calgui per a res, però si ho mantenim "altre" hauria de
>>> ser adjectiu i no pas determinant. No crec que puguin haver-hi dos
>>> determinants seguits. En tot cas, trenca les esquemes que tenim a t1x per a
>>> la concordància interna dels SN.
>>>
>>> Ho mantenim? Ho mantenint canviant "altre" a adjectiu?
>>>
>>> Cordialment,
>>> Hèctor
>>> ___
>>> Apertium-catala mailing list
>>> Apertium-catala@lists.sourceforge.net
>>> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>>>
>>
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


[Apertium-catala] Fwd: Tests Apertium Softcatalà

2019-09-04 Thread Jaume Ortolà i Font
Bon dia,

En els tests diaris que fem en el servidor de Softcatalà (enllaços més
avall) hi ha hagut unes diferències que no sé per què s'han produït. Sembla
com si el mòdul de selecció lèxica (lrx o metalrx) no funcionés. En la meua
instal·lació personal aquests canvis no s'han produït. I hi ha alguns
canvis en el tractament de paraules en majúscules que tampoc no sé per què
passen.

Teniu alguna idea de què ha passat? S'ha actualitzat alguna cosa en el
servidor?

Salutacions,
Jaume Ortolà

-- Forwarded message -
De: root 
Date: dc., 4 de set. 2019 a les 6:08
Subject: Tests Apertium Softcatalà
To: 


Resultats dels tests

cat-dogv2017-eng (2238396):
https://www.softcatala.org/apertium/differences/20190904/cat-dogv2017-eng.html
cat-dogv2017-ron (1833230):
https://www.softcatala.org/apertium/differences/20190904/cat-dogv2017-ron.html
cat-dogv2017-spa (3635379):
https://www.softcatala.org/apertium/differences/20190904/cat-dogv2017-spa.html
cat-wiki-eng (1362987):
https://www.softcatala.org/apertium/differences/20190904/cat-wiki-eng.html
cat-wiki-ron (1246276):
https://www.softcatala.org/apertium/differences/20190904/cat-wiki-ron.html
cat-wiki-spa (143811):
https://www.softcatala.org/apertium/differences/20190904/cat-wiki-spa.html
spa-dogv2017-cat (71288):
https://www.softcatala.org/apertium/differences/20190904/spa-dogv2017-cat.html
spa-dogv2017-cat_valencia (71331):
https://www.softcatala.org/apertium/differences/20190904/spa-dogv2017-cat_valencia.html
spa-europarl-cat (298071):
https://www.softcatala.org/apertium/differences/20190904/spa-europarl-cat.html
spa-europarl-cat_valencia (298165):
https://www.softcatala.org/apertium/differences/20190904/spa-europarl-cat_valencia.html
spa-wiki-cat (344387):
https://www.softcatala.org/apertium/differences/20190904/spa-wiki-cat.html
spa-wiki-cat_valencia (344956):
https://www.softcatala.org/apertium/differences/20190904/spa-wiki-cat_valencia.html

testvoc.cat-eng (0): No hi ha diferències.
testvoc.cat-eng_US (0): No hi ha diferències.
testvoc.cat-ron (0): No hi ha diferències.
testvoc.cat-spa (0): No hi ha diferències.
testvoc.eng-cat (0): No hi ha diferències.
testvoc.eng-cat_valencia (0): No hi ha diferències.
testvoc.eng-cat_valencia_uni (0): No hi ha diferències.
testvoc.ron-cat (0): No hi ha diferències.
testvoc.spa-cat (0): No hi ha diferències.
testvoc.spa-cat_valencia (0): No hi ha diferències.
testvoc.spa-cat_valencia_uni (0): No hi ha diferències.

testvoc.cat-eng (0): No hi ha errors de testvoc.
testvoc.cat-eng_US (0): No hi ha errors de testvoc.
testvoc.cat-ron (79729):
https://www.softcatala.org/apertium/differences/20190904/testvoc.cat-ron.txt
testvoc.cat-spa (0): No hi ha errors de testvoc.
testvoc.eng-cat (125612):
https://www.softcatala.org/apertium/differences/20190904/testvoc.eng-cat.txt
testvoc.eng-cat_valencia (125726):
https://www.softcatala.org/apertium/differences/20190904/testvoc.eng-cat_valencia.txt
testvoc.eng-cat_valencia_uni (125726):
https://www.softcatala.org/apertium/differences/20190904/testvoc.eng-cat_valencia_uni.txt
testvoc.ron-cat (0): No hi ha errors de testvoc.
testvoc.spa-cat (0): No hi ha errors de testvoc.
testvoc.spa-cat_valencia (0): No hi ha errors de testvoc.
testvoc.spa-cat_valencia_uni (0): No hi ha errors de testvoc.
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] Fwd: Tests Apertium Softcatalà

2019-09-04 Thread Jaume Ortolà i Font
Gràcies per les respostes.

He mirat ara un parell de casos concrets spa>cat. El que he vist és que en
la instal·lació que tenim en el servidor de Softcatalà ara fa el que
realment diuen les regles. Era abans que no ho feia bé!

Ho he provat en aquests casos:
* desde abajo. Es traduïa "des de baix", però en realitat segons la regla
havia de fer  "des d'a baix" (que és el que fa ara).
* contra todo tipo de. Es traduïa "contra tota mena de", però en realitat
segons la regla havia de fer  "contra tot tipus de" (que és el que fa ara).

O sigui: sembla que hi ha hagut una actualització i ha millorat el
comportament del LRX. Sembla que han desaparegut alguns *bugs*, com aquest
[1]. I per tant, és una bona notícia. Algú més ho pot confirmar? Ara caldrà
retocar algunes regles per a adaptar-les a aquest funcionament (ja ho he
fet en els dos casos esmentats).

Quina actualització has fet exactament, Marc? Del core d'Apertium?

El comportament de les majúscules també sembla, en general, més correcte.
Sí que hi ha un problema, que no sé d'on ve, en la traducció cat>spa de
"DEL" (en majúscules) que fa "DEL /DEL" (sic). Sospito que el problema és
de postgeneració.

Salutacions,
Jaume Ortolà

[1] https://github.com/apertium/apertium-lex-tools/issues/3


Missatge de Hèctor Alòs i Font  del dia dc., 4 de
set. 2019 a les 13:59:

> Jo no he tocat res, diria, que pugui haver generat res de semblant. Pels
> missatges a apertium-stuff, sembla que en Tino està eliminant versions
> antigues de programaris, però dubto molt que això pugui ser l'origen
> d'aquests canvis estranys.
> Cordialment,
> Hèctor
>
> Missatge de Marc Riera Irigoyen  del dia
> dc., 4 de set. 2019 a les 12:47:
>
>> Hola Jaume,
>>
>> Ahir vaig actualitzar Apertium per poder fer servir el mòdul de resolució
>> d'anàfores, perquè l'he començat a fer servir al parell anglès-català i no
>> estava instal·lat al servidor. Vaig comprovar que funcionés tot i no vaig
>> detectar cap problema, però potser hi ha alguna cosa que falla i no sé
>> detectar. Ho revisaré tan aviat com pugui.
>>
>> A reveure,
>>
>> *Marc Riera*
>>
>>
>> Missatge de Jaume Ortolà i Font  del dia dc., 4
>> de set. 2019 a les 11:37:
>>
>>> Bon dia,
>>>
>>> En els tests diaris que fem en el servidor de Softcatalà (enllaços més
>>> avall) hi ha hagut unes diferències que no sé per què s'han produït. Sembla
>>> com si el mòdul de selecció lèxica (lrx o metalrx) no funcionés. En la meua
>>> instal·lació personal aquests canvis no s'han produït. I hi ha alguns
>>> canvis en el tractament de paraules en majúscules que tampoc no sé per què
>>> passen.
>>>
>>> Teniu alguna idea de què ha passat? S'ha actualitzat alguna cosa en el
>>> servidor?
>>>
>>> Salutacions,
>>> Jaume Ortolà
>>>
>>> -- Forwarded message -
>>> De: root 
>>> Date: dc., 4 de set. 2019 a les 6:08
>>> Subject: Tests Apertium Softcatalà
>>> To: 
>>>
>>>
>>> Resultats dels tests
>>>
>>> cat-dogv2017-eng (2238396):
>>> https://www.softcatala.org/apertium/differences/20190904/cat-dogv2017-eng.html
>>> cat-dogv2017-ron (1833230):
>>> https://www.softcatala.org/apertium/differences/20190904/cat-dogv2017-ron.html
>>> cat-dogv2017-spa (3635379):
>>> https://www.softcatala.org/apertium/differences/20190904/cat-dogv2017-spa.html
>>> cat-wiki-eng (1362987):
>>> https://www.softcatala.org/apertium/differences/20190904/cat-wiki-eng.html
>>> cat-wiki-ron (1246276):
>>> https://www.softcatala.org/apertium/differences/20190904/cat-wiki-ron.html
>>> cat-wiki-spa (143811):
>>> https://www.softcatala.org/apertium/differences/20190904/cat-wiki-spa.html
>>> spa-dogv2017-cat (71288):
>>> https://www.softcatala.org/apertium/differences/20190904/spa-dogv2017-cat.html
>>> spa-dogv2017-cat_valencia (71331):
>>> https://www.softcatala.org/apertium/differences/20190904/spa-dogv2017-cat_valencia.html
>>> spa-europarl-cat (298071):
>>> https://www.softcatala.org/apertium/differences/20190904/spa-europarl-cat.html
>>> spa-europarl-cat_valencia (298165):
>>> https://www.softcatala.org/apertium/differences/20190904/spa-europarl-cat_valencia.html
>>> spa-wiki-cat (344387):
>>> https://www.softcatala.org/apertium/differences/20190904/spa-wiki-cat.html
>>> spa-wiki-cat_valencia (344956):
>>> https://www.softcatala.org/apertium/differences/20190904/spa-wiki-cat_valencia.html
>>>
>>> testvoc.cat-eng (0): No hi ha diferències.
>

Re: [Apertium-catala] Fwd: Tests Apertium Softcatalà

2019-09-06 Thread Jaume Ortolà i Font
Bon dia,

Ja tinc els mateixos resultats en diferents instal·lacions.

Els bugs esmentats en LRX sembla que sí que han quedat resolts, i per tant
ara podem ajustar millor les regles.
https://github.com/apertium/apertium-lex-tools/issues/3#event-2613442005

Salutacions,
Jaume Ortolà

Missatge de Marc Riera Irigoyen  del dia
dc., 4 de set. 2019 a les 22:47:

> Hola Jaume,
>
> L'actualització ha estat simplement a la darrera versió dels paquets core
> de la branca "nightly", no té cap més misteri. El que sí que no és gaire
> clar és que s'hagi resolt l'error; a GitHub segueix com a obert i no sembla
> que s'hagi treballat expressament per corregir-lo. A part d'això, no sé si
> hi ha hagut una millora de velocitat d'execució, perquè tampoc és normal
> que tardi una hora i mitja menys de l'habitual, però podria ser el cas.
>
> Pel que fa a l'altre error (DEL), sembla una doble generació limitada a
> les majúscules. Al parell anglès-català n'havia tingut alguna d'aquesta
> mena, mira als diccionaris monolingües si hi ha dues entrades que en
> majúscules tinguin les mateixes etiquetes.
>
> A reveure,
>
> *Marc Riera*
>
>
> Missatge de Jaume Ortolà i Font  del dia dc., 4 de
> set. 2019 a les 17:01:
>
>> Gràcies per les respostes.
>>
>> He mirat ara un parell de casos concrets spa>cat. El que he vist és que
>> en la instal·lació que tenim en el servidor de Softcatalà ara fa el que
>> realment diuen les regles. Era abans que no ho feia bé!
>>
>> Ho he provat en aquests casos:
>> * desde abajo. Es traduïa "des de baix", però en realitat segons la regla
>> havia de fer  "des d'a baix" (que és el que fa ara).
>> * contra todo tipo de. Es traduïa "contra tota mena de", però en realitat
>> segons la regla havia de fer  "contra tot tipus de" (que és el que fa ara).
>>
>> O sigui: sembla que hi ha hagut una actualització i ha millorat el
>> comportament del LRX. Sembla que han desaparegut alguns *bugs*, com
>> aquest [1]. I per tant, és una bona notícia. Algú més ho pot confirmar? Ara
>> caldrà retocar algunes regles per a adaptar-les a aquest funcionament (ja
>> ho he fet en els dos casos esmentats).
>>
>> Quina actualització has fet exactament, Marc? Del core d'Apertium?
>>
>> El comportament de les majúscules també sembla, en general, més correcte.
>> Sí que hi ha un problema, que no sé d'on ve, en la traducció cat>spa de
>> "DEL" (en majúscules) que fa "DEL /DEL" (sic). Sospito que el problema és
>> de postgeneració.
>>
>> Salutacions,
>> Jaume Ortolà
>>
>> [1] https://github.com/apertium/apertium-lex-tools/issues/3
>>
>>
>> Missatge de Hèctor Alòs i Font  del dia dc., 4 de
>> set. 2019 a les 13:59:
>>
>>> Jo no he tocat res, diria, que pugui haver generat res de semblant. Pels
>>> missatges a apertium-stuff, sembla que en Tino està eliminant versions
>>> antigues de programaris, però dubto molt que això pugui ser l'origen
>>> d'aquests canvis estranys.
>>> Cordialment,
>>> Hèctor
>>>
>>> Missatge de Marc Riera Irigoyen  del dia
>>> dc., 4 de set. 2019 a les 12:47:
>>>
>>>> Hola Jaume,
>>>>
>>>> Ahir vaig actualitzar Apertium per poder fer servir el mòdul de
>>>> resolució d'anàfores, perquè l'he començat a fer servir al parell
>>>> anglès-català i no estava instal·lat al servidor. Vaig comprovar que
>>>> funcionés tot i no vaig detectar cap problema, però potser hi ha alguna
>>>> cosa que falla i no sé detectar. Ho revisaré tan aviat com pugui.
>>>>
>>>> A reveure,
>>>>
>>>> *Marc Riera*
>>>>
>>>>
>>>> Missatge de Jaume Ortolà i Font  del dia dc., 4
>>>> de set. 2019 a les 11:37:
>>>>
>>>>> Bon dia,
>>>>>
>>>>> En els tests diaris que fem en el servidor de Softcatalà (enllaços més
>>>>> avall) hi ha hagut unes diferències que no sé per què s'han produït. 
>>>>> Sembla
>>>>> com si el mòdul de selecció lèxica (lrx o metalrx) no funcionés. En la 
>>>>> meua
>>>>> instal·lació personal aquests canvis no s'han produït. I hi ha alguns
>>>>> canvis en el tractament de paraules en majúscules que tampoc no sé per què
>>>>> passen.
>>>>>
>>>>> Teniu alguna idea de què ha passat? S'ha actualitzat alguna cosa en el
>>>>> servidor?
>>>>>
>>>>> Salutacions,
>>>>> Jaume Ortolà

[Apertium-catala] traducció de "DEL" (cat>spa)

2019-09-06 Thread Jaume Ortolà i Font
No aconsegueixo resoldre aquest problema. No he vist cap entrada que pugui
produir això. Té un comportament molt estrany, com podeu veure:

$ echo "DEL" | apertium -d . cat-spa
DEL./DEL

$ echo "DEL CENTRE" | apertium -d . cat-spa
DEL /DEL CENTRO

$ echo "DEL, CENTRE" | apertium -d . cat-spa
DEL,/DEL, CENTRO

$ echo "DEL8 CENTRE." | apertium -d . cat-spa
DEL8 CENTRO.

Algú té alguna idea de què pot passar?

Salutacions,
Jaume Ortolà
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] El traductor de castellà juga una mala passada a l'Ajuntament de València amb la pel·lícula 'El senyor dels anells' - Diari La Veu

2019-09-09 Thread Jaume Ortolà i Font
Gràcies.

He canviat la traducció anell>sortija a anell>anillo. No sols pel cas de
"El senyor dels anells" sinó per molts altres: anell verd, xarxa en anell,
etc. En principi, "anillo" sembla sempre una traducció vàlida en castellà.

Salutacions,
Jaume Ortolà


Missatge de Hèctor Alòs i Font  del dia ds., 7 de
set. 2019 a les 21:34:

> Per si és del vostre interès.
>
>
> https://www.diarilaveu.com/el-traductor-de-castella-juga-una-mala-passada-a-lajuntament-de-valencia-amb-la-pel-licula-el-senyor-dels-anells
> ___
> Apertium-catala mailing list
> Apertium-catala@lists.sourceforge.net
> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] traducció de "DEL" (cat>spa)

2019-09-09 Thread Jaume Ortolà i Font
Una novetat.

He canviat la traducció cat>spa: la mar > el mar.
I m'ha aparegut això:
UN DIA A LA MAR > UN DÍA Al /AL MAR

Eliminant les regles que hi ha en el fitxer de postgeneració en majúscules
(A, DE, EL, etc. ). La doble generació desapareix.

Només resta un detall de majúscules sense resoldre bé:
AL > Al

Però, en canvi, fa bé:
DEL > DEL

Això (AL > Al) passa igual en els dos sentits spa-cat i cat-spa.

Salutacions,
Jaume Ortolà

Missatge de Marc Riera Irigoyen  del dia
dv., 6 de set. 2019 a les 12:58:

> Hola,
>
> He provat de fer la traducció fins a la generació (sense postgeneració) i
> fins allà el resultat és l'esperat, la qual cosa confirma, com suggeria
> l'Hèctor, que l'error apareix a la postgeneració.
>
> No he modificat mai res d'aquest mòdul, o sigui que d'entrada no sé veure
> què pot estar fallant, però intentaré esbrinar-ho.
>
> *Marc Riera*
>
>
> Missatge de Hèctor Alòs i Font  del dia dv., 6 de
> set. 2019 a les 10:58:
>
>> Se m'ocorre que potser hi ha alguna cosa estranya a post-cat.dix (al
>> diccionari no hi he vist res), però en un repàs ràpid no hi he trobat res
>> de sospitós que pogués afegir un punt.
>>
>> Missatge de Jaume Ortolà i Font  del dia dv., 6
>> de set. 2019 a les 11:39:
>>
>>> No aconsegueixo resoldre aquest problema. No he vist cap entrada que
>>> pugui produir això. Té un comportament molt estrany, com podeu veure:
>>>
>>> $ echo "DEL" | apertium -d . cat-spa
>>> DEL./DEL
>>>
>>> $ echo "DEL CENTRE" | apertium -d . cat-spa
>>> DEL /DEL CENTRO
>>>
>>> $ echo "DEL, CENTRE" | apertium -d . cat-spa
>>> DEL,/DEL, CENTRO
>>>
>>> $ echo "DEL8 CENTRE." | apertium -d . cat-spa
>>> DEL8 CENTRO.
>>>
>>> Algú té alguna idea de què pot passar?
>>>
>>> Salutacions,
>>> Jaume Ortolà
>>> ___
>>> Apertium-catala mailing list
>>> Apertium-catala@lists.sourceforge.net
>>> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>>>
>> ___
>> Apertium-catala mailing list
>> Apertium-catala@lists.sourceforge.net
>> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>>
> ___
> Apertium-catala mailing list
> Apertium-catala@lists.sourceforge.net
> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


[Apertium-catala] generació de traduccions amb prefixos

2019-09-16 Thread Jaume Ortolà i Font
Bon dia,

¿Tenim alguna manera fàcil de generar traduccions que no són en els
diccionaris, però que es podrien generar afegint prefixos a entrades ja
existents?

Penso en casos com ara:
re + (qualsevol verb)
auto + (qualsevol verb)
anti/pro + (qualsevol adjectiu)
pre/post + (qualsevol nom)

En algun cas podria haver-hi algun problema perquè hi ha algun canvi
ortogràfic (ruso > antirruso, rus > prorús), i llavors s'hauria de tractar
d'una altra manera.

No hauria de ser complicat perquè simplement és afegir un prefix. No
canviaria res més: ni les formes ni les etiquetes.

Caldria fer servir els mòduls twol o twoc?

Salutacions,
Jaume Ortolà
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] resultats diferents inexplicables del tagger

2019-10-25 Thread Jaume Ortolà i Font
el miler de regles que
>>> diu en Jaume que tenim, de fet, si es reestructuressin bé, estic convençut
>>> que passarien a ser, més o menys, la tercera part del que hi ha ara. Per
>>> això, em temo que, si llancem el tagger primigeni, caldrà fer força feina.
>>> Si surt més a compte, amb l'experiència que ja tenim amb CG, que etiquetar
>>> un corpus manual, no ho sabria dir. Un etiquetatge estadístic també té
>>> avantatges (alguna vegada ho havia comentat en Marc, que potser té exemples
>>> al cap).
>>>
>>> Hèctor
>>>
>>> Missatge de Jaume Ortolà i Font  del dia dt., 22
>>> d’oct. 2019 a les 13:08:
>>>
>>>> Bon dia,
>>>>
>>>> Més observacions.
>>>>
>>>> He vist que en els fitxers de CG de català i castellà tenim gairebé un
>>>> miler de regles de desambiguació (una mica menys). En LanguageTool en tenim
>>>> 1200.
>>>>
>>>> Això em reforça la intuïció que el tagger no aporta quasi res de
>>>> valuós.
>>>>
>>>> Crec que hem de plantejar-nos aquesta disjuntiva. Què serà més útil?
>>>> 1) Fer la feina d'etiquetar mig milió de paraules per a entrenar el
>>>> tagger, i obtenir uns resultats dubtosos, que no controlarem.
>>>> 2) Completar les regles de desambiguació CG (què pot fer falta? 300-400
>>>> regles més?). Aquestes regles probablement farien falta de totes maneres.
>>>>
>>>> Les qüestions difícils que esmenta Hèctor no ens les resoldrà el tagger
>>>> estadístic. Això em sembla evident.
>>>>
>>>> En qualsevol cas, s'han de fer proves. Començaré mirant què queda per
>>>> desambiguar sense el tagger.
>>>>
>>>> Què en penseu?
>>>>
>>>> Jaume
>>>>
>>>> Missatge de Hèctor Alòs i Font  del dia dl., 21
>>>> d’oct. 2019 a les 20:21:
>>>>
>>>>> Es pot utilitzar les frases que vaig extreure de la Viquipèdia com a
>>>>> corpus a desambiguar. Tenint en compte que els traductors s'utilitzen molt
>>>>> per a documents de l'administració, crec que el corpus també hauria de
>>>>> contenir documents administratius (eventualment, de diferents
>>>>> administracions). Penseu, per exemple, que a la Viquipèdia no trobareu
>>>>> pràcticament cap forma verbal amb "vós", mentre que sí que són habituals 
>>>>> en
>>>>> la correspondència de l'administració. Però, com apunta en Marc, cal tenir
>>>>> en compte la qüestió de les llicències d'ús que poden tenir aquests textos
>>>>> (amb els de la Viquipèdia no veig que n'hi hagi i per això són a
>>>>> apertium-cat).
>>>>>
>>>>> En tot cas, del que sobretot voldria advertir és que el corpus que es
>>>>> faci servir, després no s'hauria d'emprar per a testejar els traductors,
>>>>> tal com estic fent jo ara amb les frases de la Viquipèdia que en Marc
>>>>> proposa d'utilitzar com a corpus. Altrament, ens creurem que tenim
>>>>> traductors genials i serà, en bona part, perquè el nombre d'errors de
>>>>> desambiguació serà mínim en el corpus de prova en qüestió. Extreure corpus
>>>>> de les viquipèdies no és complicat. Sempre que m'ha calgut en diferents
>>>>> llengües m'he limitat a seguir les instruccions que hi ha a la wiki.
>>>>>
>>>>> Tenir un corpus desambiguat també servirà per aclarir algunes coses
>>>>> que almenys jo segueixo sense tenir gaire clares, com, per exemple, com se
>>>>> suposa que cal analitzar "com" en diferents contextos, o "però" i
>>>>> "tanmateix" entre comes enmig d'una oració (i, de passada, documentar-ho a
>>>>> la wiki).
>>>>>
>>>>> Hèctor
>>>>>
>>>>> Missatge de Marc Riera Irigoyen  del
>>>>> dia dl., 21 d’oct. 2019 a les 20:20:
>>>>>
>>>>>> Hola,
>>>>>>
>>>>>> Per entrenar el tagger, independentment de la tecnologia que
>>>>>> s'utilitzi per fer-ho, el que cal és un corpus monolingüe. Després cal
>>>>>> analitzar-lo amb Apertium per dividir-lo en unitats lèxiques segons el
>>>>>> diccionari d'Apertium i trobar les unitats lèxiques ambigües, i fer una
>>>>>> desambiguació manual. És una feina monòtona, però es pot fer
>>>>>> progressiv

Re: [Apertium-catala] resultats diferents inexplicables del tagger

2019-10-21 Thread Jaume Ortolà i Font
Moltes gràcies, Xavi. Molt interessant.

El problema del tagger (assignar probabilitats diferents a principi de
frase segons el que hi ha abans) s'hauria d'intentar resoldre perquè si no
continuarem exposats al mateix risc. Quan comença una frase nova, hauria de
començar sempre igual. No té sentit fer-ho d'una altra manera.

El tagger, efectivament, caldria entrenar-lo de nou. La meua impressió ara
mateix és que no fa quasi res de productiu. Quan introduïm una paraula nova
en el diccionari que crea ambigüitat (per exemple, una cosa molt simple com
ara un substantiu que coincideix amb una forma verbal), el tagger falla
moltíssim. Fa la impressió de tirar monedes a l'aire. I l'única manera
d'arreglar-ho és fer més regles CG.

Es pot arribar a crear un sistema de regles de desambiguació prou eficaç.
Ho hem fet, per exemple, en LanguageTool. Sé que l'IEC també té un sistema
de regles molt complet per a etiquetar. Ara, segons la finalitat, les
regles han de ser lleugerament diferents. I el conjunt de regles pot
arribar a ser prou voluminós. Hauríem de valorar  tot això.

Salutacions,
Jaume Ortolà


Missatge de Xavi Ivars  del dia dg., 20 d’oct. 2019 a
les 23:04:

> Sembla que el problema és que el tagger no reinicia les probabilitats de
> la mateixa manera quan arriba a un final de frase o quan una frase comença.
> I les probabilitats que hi assigna són diferents segons el context.
>
> He aconseguit trobar un punt que fa que el primer cas canvie.+
>
> En aquest cas, funciona correctament.
>
> echo "Eren deu quatre homes. El marit havia estat fan de l'actor." |
> apertium -d . cat-spa-disamb
>
> En aquest cas, no
>
> echo "Eren deu mil homes. El marit havia estat fan de l'actor." | apertium
> -d . cat-spa-disamb
>
> Tot i que sembla igual ("deu quatre" no té cap sentit, però l'anàlisi de
> quatre acaba sent la mateixa, ), al tagger no li arriba la
> mateixa informació.
>
> Sembla que hi ha algunes regles de CG que lleven possibles anàlisi de la
> paraula *deu*
>
> En el primer cas, el resultat després de CG
> és  ^deu/deu/deu/deure$
>
> S'han aplicat estes regles de
> REMOVE: 
> /¬deure/¬deure
>
>
> En canvi, en el segon cas, al tagger li arriba
>  ^deu/deu/deure$
>
> S'han aplicat les regles
> /¬deu/¬deure/¬deure$
>
>
> El tagger de català es va entrenar fa molts anys, amb diccionaris molt
> diferents, i amb una entrada extremadament més ambigua que ara, ja que
> no teníem l'elevada quantitat de regles CG que tenim ara.
>
> Crec que la millor solució seria reentrenar el tagger, i comparar els
> resultats.
>
> Gema , vosaltres teniu instruccions de com fer
> l'entrenament amb el tagger antic?
>
> Marc , seria molt complex fer-ho amb el
> mateix que vas fer l'anglés?
>
> --
> < Xavi Ivars >
> < http://xavi.ivars.me >
>
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] resultats diferents inexplicables del tagger

2019-10-22 Thread Jaume Ortolà i Font
Bon dia,

Més observacions.

He vist que en els fitxers de CG de català i castellà tenim gairebé un
miler de regles de desambiguació (una mica menys). En LanguageTool en tenim
1200.

Això em reforça la intuïció que el tagger no aporta quasi res de valuós.

Crec que hem de plantejar-nos aquesta disjuntiva. Què serà més útil?
1) Fer la feina d'etiquetar mig milió de paraules per a entrenar el tagger,
i obtenir uns resultats dubtosos, que no controlarem.
2) Completar les regles de desambiguació CG (què pot fer falta? 300-400
regles més?). Aquestes regles probablement farien falta de totes maneres.

Les qüestions difícils que esmenta Hèctor no ens les resoldrà el tagger
estadístic. Això em sembla evident.

En qualsevol cas, s'han de fer proves. Començaré mirant què queda per
desambiguar sense el tagger.

Què en penseu?

Jaume

Missatge de Hèctor Alòs i Font  del dia dl., 21
d’oct. 2019 a les 20:21:

> Es pot utilitzar les frases que vaig extreure de la Viquipèdia com a
> corpus a desambiguar. Tenint en compte que els traductors s'utilitzen molt
> per a documents de l'administració, crec que el corpus també hauria de
> contenir documents administratius (eventualment, de diferents
> administracions). Penseu, per exemple, que a la Viquipèdia no trobareu
> pràcticament cap forma verbal amb "vós", mentre que sí que són habituals en
> la correspondència de l'administració. Però, com apunta en Marc, cal tenir
> en compte la qüestió de les llicències d'ús que poden tenir aquests textos
> (amb els de la Viquipèdia no veig que n'hi hagi i per això són a
> apertium-cat).
>
> En tot cas, del que sobretot voldria advertir és que el corpus que es faci
> servir, després no s'hauria d'emprar per a testejar els traductors, tal com
> estic fent jo ara amb les frases de la Viquipèdia que en Marc proposa
> d'utilitzar com a corpus. Altrament, ens creurem que tenim traductors
> genials i serà, en bona part, perquè el nombre d'errors de desambiguació
> serà mínim en el corpus de prova en qüestió. Extreure corpus de les
> viquipèdies no és complicat. Sempre que m'ha calgut en diferents llengües
> m'he limitat a seguir les instruccions que hi ha a la wiki.
>
> Tenir un corpus desambiguat també servirà per aclarir algunes coses que
> almenys jo segueixo sense tenir gaire clares, com, per exemple, com se
> suposa que cal analitzar "com" en diferents contextos, o "però" i
> "tanmateix" entre comes enmig d'una oració (i, de passada, documentar-ho a
> la wiki).
>
> Hèctor
>
> Missatge de Marc Riera Irigoyen  del dia
> dl., 21 d’oct. 2019 a les 20:20:
>
>> Hola,
>>
>> Per entrenar el tagger, independentment de la tecnologia que s'utilitzi
>> per fer-ho, el que cal és un corpus monolingüe. Després cal analitzar-lo
>> amb Apertium per dividir-lo en unitats lèxiques segons el diccionari
>> d'Apertium i trobar les unitats lèxiques ambigües, i fer una desambiguació
>> manual. És una feina monòtona, però es pot fer progressivament i una vegada
>> feta, si es manté el corpus desambiguat actualitzat als canvis dels
>> diccionaris, es pot tornar a entrenar el tagger tantes vegades com es
>> vulgui.
>>
>> En primer lloc, per tant, ens cal un corpus. Tenim 20.000 frases extretes
>> de la Viquipèdia per Hèctor Alòs, que són més o menys 500.000 paraules. Per
>> començar, podríem fer una prova amb les primeres 1.000 frases. Entenc que
>> si les tenim a l'apertium-cat vol dir que no hi ha problemes de llicències,
>> però confirmeu-m'ho, si us plau.
>>
>> *Marc Riera*
>>
>>
>> Missatge de Jaume Ortolà i Font  del dia dl., 21
>> d’oct. 2019 a les 11:30:
>>
>>> Moltes gràcies, Xavi. Molt interessant.
>>>
>>> El problema del tagger (assignar probabilitats diferents a principi de
>>> frase segons el que hi ha abans) s'hauria d'intentar resoldre perquè si no
>>> continuarem exposats al mateix risc. Quan comença una frase nova, hauria de
>>> començar sempre igual. No té sentit fer-ho d'una altra manera.
>>>
>>> El tagger, efectivament, caldria entrenar-lo de nou. La meua impressió
>>> ara mateix és que no fa quasi res de productiu. Quan introduïm una paraula
>>> nova en el diccionari que crea ambigüitat (per exemple, una cosa molt
>>> simple com ara un substantiu que coincideix amb una forma verbal), el
>>> tagger falla moltíssim. Fa la impressió de tirar monedes a l'aire. I
>>> l'única manera d'arreglar-ho és fer més regles CG.
>>>
>>> Es pot arribar a crear un sistema de regles de desambiguació prou
>>> eficaç. Ho hem fet, per exemple, en LanguageTool. Sé que l'IEC també té un
>>> sistema de regles molt complet per a etiquetar. Ara, sego

[Apertium-catala] diccionari català metadix

2019-09-25 Thread Jaume Ortolà i Font
Bon dia,

Per a poder introduir algunes millores (com ara traducció amb prefixos
post-, pre-, pro-, anti-...) necessitem un diccionari català metadix.
Entenc que el diccionari actual passaria a ser el diccionari metadix i a
partir d'aquest generaríem un altre diccionari .dix amb afegits i
modificacions.

En la conversió de metadix a dix s'haurien de fer coses com ara:

- Afegir paradigmes davant de les paraules en funció de si són noms,
adjectius o verbs. En el cas del castellà, també cal mirar si la paraula
comença per "r" o no.
- Crear entrades per a les diferents codificacions de la ela geminada. Fins
i tot es podrien crear entrades amb escriptures errònies però freqüents.
- Potser es podria fer servir per a resoldre altres problemes, com ara les
opcions de traduir els municipis valencians.
- ...

Com ho hauríem de fer, això? Amb Python? N'hi ha algun model?

Jaume






Salutacions,
Jaume Ortolà
www.riuraueditors.cat
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] diccionari català metadix

2019-09-25 Thread Jaume Ortolà i Font
Missatge de Hèctor Alòs i Font  del dia dc., 25 de
set. 2019 a les 14:41:

> No sé si entenc bé la pregunta de si n'hi ha algun model, però
> apertium-fra i apertium-oci, per exemple, tenen metadix. S'utilitzen per
> reduir els paradigmes verbals.
>

Voldria saber com convindria fer-ho exactament (Python, XSLT?), de manera
que sigui útil per a diferents llengües i compatible amb la resta de coses
que s'han fet. Suposo que Xavi ens ho podria dir.

Jaume
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] diccionari català metadix

2019-10-08 Thread Jaume Ortolà i Font
Missatge de Xavi Ivars  del dia dv., 4 d’oct. 2019 a
les 1:31:

>
>
> Missatge de Mikel L. Forcada  del dia dc., 2 d’oct. 2019
> a les 18:57:
>
>> La veritat, XSLT no és tan críptic, però jo no he vist l'script.
>>
>> És possible que els fitxers XSLT de l'occità siguen reaprofitables.
>>
>
> De llegir no, però a mi d'escriure em costa molt, pel que si he
> d'implementar jo alguna cosa, preferisc fer-ho en python. Ara, si hi ha
> coses fetes amb XSLT reaprofitables, o algú vol implementar-ho amb XSLT, no
> seré jo qui li diga que no :)
>

Jo també tinc la sensació que per a totes les coses que necessitem serà més
apropiat fer-ho en Python. Què fem per a prendre una decisió i poder
avançar? Ho discutim en la llista general d'Apertium?

Jaume
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] Github

2019-12-22 Thread Jaume Ortolà i Font
Xavi,

El mateix que has fet en apertium-cat ho has de fer també en apertium-spa i
apertium-spa-cat, perquè no tenim permís per a publicar en la branca
master.

Salutacions,
Jaume Ortolà


Missatge de Xavi Ivars  del dia dg., 22 de des. 2019
a les 4:05:

> Era un problema de configuració. Ja t'hauria de funcionar.
>
>
> --
> Xavi Ivars
> < http://xavi.ivars.me >
>
> El ds., 21 de des. 2019, 21:04, Hèctor Alòs i Font 
> va escriure:
>
>> Què cal fer ara per pujar coses a apertium-cat? Estic rebent aquest error:
>>
>> $ git push
>> Username for 'https://github.com': hectoralos
>> Password for 'https://hectora...@github.com':
>> Comptant els objectes: 3, fet.
>> Delta compression using up to 8 threads.
>> Comprimint objectes: 100% (3/3), fet.
>> Escrivint els objectes: 100% (3/3), 845 bytes | 0 bytes/s, fet.
>> Total 3 (delta 2), reused 0 (delta 0)
>> remote: Resolving deltas: 100% (2/2), completed with 2 local objects.
>> remote: error: GH006: Protected branch update failed for
>> refs/heads/master.
>> remote: error: You're not authorized to push to this branch. Visit
>> https://help.github.com/articles/about-protected-branches/ for more
>> information.
>> To https://github.com/apertium/apertium-cat/
>>  ! [remote rejected] master -> master (protected branch hook declined)
>> error: s'ha fallat en pujar algunes referències a '
>> https://github.com/apertium/apertium-cat/'
>>
>> Cordialment,
>> Hèctor
>> ___
>> Apertium-catala mailing list
>> Apertium-catala@lists.sourceforge.net
>> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>>
> ___
> Apertium-catala mailing list
> Apertium-catala@lists.sourceforge.net
> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


[Apertium-catala] metadix spa-cat

2020-01-27 Thread Jaume Ortolà i Font
Bon dia,

He creat diccionaris metadix en spa, cat i spa-cat. Es converteixen en dix
amb un script en python.

Tot això està en branques anomenades "metadix", no està encara en "master".

Amb aquests metadix, per ara, afegim possibles prefixos a tots els noms i
tots els adjectius. S'hi poden afegir els verbs, i també més prefixos. En
principi, a mi em sembla que va bé.

L'única limitació és que pot generar formes errònies en paraules
monosil·làbiques que amb el prefix requereixin accent gràfic. Per exemple:
preplan (pre+plan) > *prepla. És fàcil impedir la formació d'aquestes
paraules en els scripts.

¿On hem de documentar com funciona?

Caldria revisar si està tot bé en els fitxers Makefile. Podries mirar-ho,
Xavi? Una cosa que no es fa encara és crear el directori ".deps" al
principi (ara s'ha de fer manualment).

Amb el metadix de català volem fer altres coses: generar entrades per a
diferents codificacions de la ela geminada, diferenciar denominacions
valencians/oficials de municipis valencians, etc.

Si considerem que és útil, i quan estigui provat, podem passar-ho a
"master".

Salutacions,
Jaume Ortolà
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] Nova versió de fra-cat

2020-01-29 Thread Jaume Ortolà i Font
D'acord, Hèctor.

Quant a l'ordenació, alguna vegada n'he parlat amb Marc. Podria estar bé.
S'hauria de fer amb un script que seguís sempre l'ordenació que determinem.
Cada vegada que algú entra paraules noves podria executar l'script i
deixar-ho tot ordenat.

Ara, fem l'ordenació que fem és impossible cobrir totes les necessitats. A
vegades posem una paraula al costat d'una altra per relacions que no tenen
res a veure amb l'ordre. Alguna cosa perdrem amb l'ordenació, però en
guanyarem unes altres.

Jaume



Missatge de Hèctor Alòs i Font  del dia dj., 30 de
gen. 2020 a les 6:17:

> En els pròxims dies voldria llançar una nova versió del francès-català. La
> meva idea seria en algun moment de la setmana vinent. Si no trenca els
> plans de ningú, preferiria que no s'introduïssin gaires canvis en el
> diccionari apertium-cat per a no tenir problemes amb el testvoc. De tota
> manera, la introducció de lemes nous (sense que sigui iguals a d'altres
> existents amb una altra categoria gramatical) no m'hauria de causar
> problemes. Si hi ha algun impediment, digueu-ho. No hi ha cap pressa
> especial per a publicar aquesta nova versió.
>
> Per altra banda, potser podríem en algun moment reordenar el diccionari
> català? Es perdrà una mica la història de les inclusions, que acostumen a
> ser consecutives, però generalment estan signades i, a més, a vegades és
> més fàcil de veure què hi ha i què no hi ha amb un ordre alfabètic.
>
> Hèctor
> ___
> Apertium-catala mailing list
> Apertium-catala@lists.sourceforge.net
> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] Municipis francesos

2020-02-13 Thread Jaume Ortolà i Font
Certament, afegint topònims o antropònims no acabaríem mai. I arriba un
punt en què això té una utilitat baixa.

Si l'objectiu és evitar traduccions indesitjables de noms propis, potser es
pot arreglar aplicant algunes regles de CG com les que tenim en spa-cat.
Aquestes regles el que fan és no traduir certes paraules que, pel context,
poden ser noms propis. Pots copiar les mateixes regles, i afegir-ne alguna
més (com ara per a aquests típics noms francesos: Saint-..., ...-de-...,
...-sur-...). Aquests noms apareixeran marcats amb *, però val més això que
no una traducció absurda.

Salutacions,
Jaume Ortolà


Missatge de Hèctor Alòs i Font  del dia dj., 13 de
febr. 2020 a les 23:05:

> He afegit al traductor fra-cat i por-cat els municipis de Catalunya i el
> País Valencià recollits a les taules Excel d'apertium-cat i que ja estaven
> en el diccionari monolingüe català (n'hi ha que són a les taules, però no
> al diccionari). No representa cap problema afegir-los als altres
> diccionaris perquè només són uns 1500.
>
> El problema és l'invers. Estic en disposició de carregar tots els
> municipis de l'Estat francès, però són uns 80.000. El diccionari monolingüe
> català té ara uns 110.000 lemes, amb la qual cosa gairebé el duplicaria per
> a un ús nul en altres traductors automàtics basats en el català. Alentiria
> les compilacions de tothom, etc. Però sense afegir aquests municipis tinc
> traduccions ridícules com:
>
> echo "Sainte-Marie-de-Gosse" | apertium -d . fra-cat
> Santa-Maria-de-Marrec
>
> Idees?
>
> Hèctor
> ___
> Apertium-catala mailing list
> Apertium-catala@lists.sourceforge.net
> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] Municipis francesos

2020-02-14 Thread Jaume Ortolà i Font
Missatge de Hèctor Alòs i Font  del dia dv., 14 de
febr. 2020 a les 7:01:

> De tota manera, aquí és més complicat que el cas del sistema per detectar
> antropònims desconeguts d'apertium-cat. El problema és que coses com
> Sainte-Marie-de-Gosse són quatre paraules perquè el guionet es tracta com a
> separador de paraules. Per tant, seguint la mateixa idea, caldria marcar
> totes quatre paraules per a impedir-ne la traducció. A més, per a més
> seguretat, voldria assegurar-me que el separador de paraules és un guionet
> i no un blanc, i no sé com accedir a aquesta informació en CG. Caldrà
> demanar-li-ho a en Tino (per la mateixa raó, no sé com canviar el guionet a
> un blanc en coses com "rue Victor-Hugo").
>

Jo ho vaig fer servir en el fitxer spa.rlx.[1] Els caràcters que no entren
dins dels tokens (p. ex. guions i guionets) queden en un espai que es diu
"meta".

[1]
https://github.com/apertium/apertium-spa/blob/master/apertium-spa.spa.rlx#L231

En resum, per a topònims i antropònims, crec que val la pena afegir-los
> massivament als diccionaris, especialment quan tractes llengües mínimament
> més distants que el català i el castellà.
>

Per mi, avant. Afegeix el que creguis necessari. No serà un problema per
als altres parells.

Jaume Ortolà
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


[Apertium-catala] Reordenació del diccionari

2020-06-21 Thread Jaume Ortolà i Font
Missatge de Hèctor Alòs i Font  del dia ds., 20 de
juny 2020 a les 21:08:

> Potser aprofitem l'avinentesa i reordenem després el diccionari català
> amb apertium-dixtools?
>

En vaig parlar fa algun temps amb Marc, i no vam arribar a una conclusió
clara.

Per a mi és molt incòmode haver d'estar pensant cada vegada on he d'afegir
les entrades noves (sobretot si han d'anar repartides en diferents punts
del fitxer). Si hi ha una ordenació "canònica" que es pot aplicar sempre
automàticament amb un script, podria estar bé. Suposo que això és el que fa
apertium-dixtools. Jo no ho he fet servir mai. Podem afegir un script en el
repositori que tingui definida l'ordenació que volem, i executar-lo de
manera periòdica.

El que perdem és que a vegades agrupem les entrades segons altres criteris
(paraules que estan relacionades, diferents variants, etc.). O alguns
comentaris... No es pot tenir tot.

Llavors què preferim? Una ordenació de dixtools?

Jaume Ortolà
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] proposta de diccionaris metadix cat, spa, spa-cat

2020-06-23 Thread Jaume Ortolà i Font
Ja he pujat els canvis amb el nou metadix. Si hi ha cap problema,
digueu-m'ho.

Afegiré més prefixos. Ara n'hi ha uns quants per a substantius i adjectius,
que es poden ampliar. I també se'n poden afegir alguns per a verbs (re-,
auto-...).

Salutacions,
Jaume Ortolà


Missatge de Hèctor Alòs i Font  del dia ds., 20 de
juny 2020 a les 21:08:

> Perfecte, Jaume! Serà interessant d'utilitzar per a altres llengües,
> també. Endavant per mi.
> Potser aprofitem l'avinentesa i reordenem després el diccionari català
> amb apertium-dixtools?
> Hèctor
>
> Missatge de Jaume Ortolà i Font  del dia ds., 20
> de juny 2020 a les 15:00:
>
>> Bon dia,
>>
>> En la branca https://github.com/apertium/apertium-cat/tree/metadix (i en
>> les equivalents de spa i spa-cat) hi ha una proposta per a afegir
>> diccionaris metadix. Això permetrà fer traduccions de paraules amb prefixos
>> que no tenim en els diccionaris (p. ex. pre-, post-, anti-, pro-...). Ho he
>> provat i funciona bé. Només es farà amb paraules que ja existeixen en el
>> diccionari i s'etiqueten correctament (adjectius, noms, verbs; cada
>> categoria amb uns prefixos possibles). Una salvaguarda extra que s'hi pot
>> afegir és que no es faci amb paraules molt curtes, perquè poden canviar de
>> grafia (p. ex. *prorus/prorús).
>>
>> També ho podem aprofitar per a altres coses que ara no podem fer (per
>> exemple, generar entrades automàticament per a grafies alternatives,
>> correctes o incorrectes, de la ela geminada).
>>
>> L'únic que canviarà és que els canvis que abans fèieu en el diccionari
>> .dix ara els haureu de fer en el .metadix.
>>
>> Vegeu si hi ha cap inconvenient, i si no, ho tiraré avant.
>>
>> Salutacions,
>> Jaume Ortolà
>> ___
>> Apertium-catala mailing list
>> Apertium-catala@lists.sourceforge.net
>> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>>
>
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] proposta de diccionaris metadix cat, spa, spa-cat

2020-06-23 Thread Jaume Ortolà i Font
Ací baix teniu una mostra de la mena de paraules que abans no traduíem
(spa>cat) i ara sí.

Com en tot, també hi ha petits inconvenients. Hem d'anar amb compte amb
casos com aquests:
*resabios/resavis, *Probus/probus, *progama/progamma,
*resuperación/resuperació, *Redon/redo

"Resabio" és una paraula que falta en les traduccions. S'hi ha d'afegir.
Probus i Redon probablement les hauríem d'excloure de la traducció amb
prefixos perquè són massa curtes. Les paraules que tenen una falta
d'ortografia en l'original (*progama, *resuperación) no tenen solució sense
fer correcció ortogràfica.

També exclouré multiparaules perquè he trobat un error amb "al este" (que
està marcat incorrectament com a nom en comptes d'adverbi).

Salutacions,
Jaume Ortolà

anticarro, anticientífica, anticlímax, anticolonialisme, antidiamants,
antiecològica, antieuro, antiinflacionària, antimediterrani, antimàfia,
antipells, antiracials, antireformistes, antireglamentàries, antirural,
antisèrbies, antivandalisme, antiètnics, autoconscient, autocop,
autodefinició, autodiscriminació, autoexplotació, autoprocés,
multibilateral, multietnicitat, multilateralització, postnacional,
preabolicionista, precontenciós, prefemorals, prepúbers, pretractat,
pronazi, provietnamita, redimensió, reinclusió, replanificació,
semiembriaguesa, semieuropees...

Missatge de Jaume Ortolà i Font  del dia dt., 23 de
juny 2020 a les 16:20:

> Ja he pujat els canvis amb el nou metadix. Si hi ha cap problema,
> digueu-m'ho.
>
> Afegiré més prefixos. Ara n'hi ha uns quants per a substantius i
> adjectius, que es poden ampliar. I també se'n poden afegir alguns per a
> verbs (re-, auto-...).
>
> Salutacions,
> Jaume Ortolà
>
>
> Missatge de Hèctor Alòs i Font  del dia ds., 20 de
> juny 2020 a les 21:08:
>
>> Perfecte, Jaume! Serà interessant d'utilitzar per a altres llengües,
>> també. Endavant per mi.
>> Potser aprofitem l'avinentesa i reordenem després el diccionari català
>> amb apertium-dixtools?
>> Hèctor
>>
>> Missatge de Jaume Ortolà i Font  del dia ds., 20
>> de juny 2020 a les 15:00:
>>
>>> Bon dia,
>>>
>>> En la branca https://github.com/apertium/apertium-cat/tree/metadix (i
>>> en les equivalents de spa i spa-cat) hi ha una proposta per a afegir
>>> diccionaris metadix. Això permetrà fer traduccions de paraules amb prefixos
>>> que no tenim en els diccionaris (p. ex. pre-, post-, anti-, pro-...). Ho he
>>> provat i funciona bé. Només es farà amb paraules que ja existeixen en el
>>> diccionari i s'etiqueten correctament (adjectius, noms, verbs; cada
>>> categoria amb uns prefixos possibles). Una salvaguarda extra que s'hi pot
>>> afegir és que no es faci amb paraules molt curtes, perquè poden canviar de
>>> grafia (p. ex. *prorus/prorús).
>>>
>>> També ho podem aprofitar per a altres coses que ara no podem fer (per
>>> exemple, generar entrades automàticament per a grafies alternatives,
>>> correctes o incorrectes, de la ela geminada).
>>>
>>> L'únic que canviarà és que els canvis que abans fèieu en el diccionari
>>> .dix ara els haureu de fer en el .metadix.
>>>
>>> Vegeu si hi ha cap inconvenient, i si no, ho tiraré avant.
>>>
>>> Salutacions,
>>> Jaume Ortolà
>>> ___
>>> Apertium-catala mailing list
>>> Apertium-catala@lists.sourceforge.net
>>> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>>>
>>
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] proposta de diccionaris metadix cat, spa, spa-cat

2020-06-23 Thread Jaume Ortolà i Font
Missatge de Hèctor Alòs i Font  del dia dt., 23 de
juny 2020 a les 18:40:

> En canvi, sí que tinc problemes amb spa-cat:
> $ echo "Això és una prova" | apertium -d . cat-spa
> ./modes/cat-spa.mode: 3: ./modes/cat-spa.mode: apertium-posttransfer: not
> found
>

Això és d'una altra cosa que ha introduït Fran, no dels prefixos. Cal fer
update && upgrade d'apertium i apertium-lex-tools.

Jaume
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] proposta de diccionaris metadix cat, spa, spa-cat

2020-06-23 Thread Jaume Ortolà i Font
>
> Compte: ara veig:
> < 01840. *Jung vio la alquimia como una *proto-psicología occidental
> dedicada el logro de la Principio de individuación individuación
> ---
> > 01840. *Jung vio la alquimia como una protono-psicología occidental
> dedicada el logro de la Principio de individuación individuación
>

He limitat que només es puguin afegir prefixos a paraules d'almenys 5
lletres, i la majoria d'aquests problemes queden resolts. Però sempre poden
haver-hi efectes no desitjats, per exemple amb paraules que tenen errors
ortogràfics o paraules en altres idiomes.

Jaume
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] proposta de diccionaris metadix cat, spa, spa-cat

2020-06-24 Thread Jaume Ortolà i Font
Després d'unes quantes proves, he deixat aquestes limitacions per a traduir
amb prefixos:
https://github.com/apertium/apertium-spa-cat/blob/master/convert-metadix-dix.py#L112

Si és multiparaula, no es permet. Si totes dues paraules (spa i cat) tenen
menys de 4 lletres (p. ex. "autogol"), o una de les dues en té menys de 3
(ex. "proto"), tampoc no es permet. Això és el que m'ha semblat més
equilibrat. En altres parells de llengües potser va millor una altra cosa.
Si trobeu casos que no vagin bé amb això, digueu-m'ho. Sempre es pot fer
més restrictiu, i introduir aquestes paraules a mà.

Quant a la ela geminada, serà fàcil de fer. Amb l'script en Python, podem
introduir tantes entrades com vulguem amb la marca "LR" com aquesta:
  GàŀliaGàl·lia

El que no es podia fer de cap altra manera era passar de la codificació de
dos caràcters a la de tres. Les codificacions que mantenen el nombre de
caràcters potser es poden fer amb funcions ja existents d'Apertium. Però ho
podem fer tot de la mateixa manera per simplicitat.

Salutacions,
Jaume Ortolà

Missatge de Marc Riera Irigoyen  del dia
dt., 23 de juny 2020 a les 23:35:

> Hola,
>
> Molt bona feina Jaume, ja veig que això dels prefixos permet estalviar
> molta feina. Hi donaré un cop d'ull per implementar-ho a l'anglès-català o
> al romanès-català.
>
> Vull mirar-me el tema de les eles geminades (que ja havies comentat) per
> eliminar algunes entrades duplicades. Potser podem aprofitar també per
> afegir més punts volats fal·laços que no siguin ambigus. Penso, per
> exemple, en les bales que utilitza molta gent quan escriu amb el mòbil.
>
> A reveure,
>
> *Marc Riera*
>
>
> Missatge de Jaume Ortolà i Font  del dia dt., 23
> de juny 2020 a les 20:35:
>
>> Compte: ara veig:
>>> < 01840. *Jung vio la alquimia como una *proto-psicología occidental
>>> dedicada el logro de la Principio de individuación individuación
>>> ---
>>> > 01840. *Jung vio la alquimia como una protono-psicología occidental
>>> dedicada el logro de la Principio de individuación individuación
>>>
>>
>> He limitat que només es puguin afegir prefixos a paraules d'almenys 5
>> lletres, i la majoria d'aquests problemes queden resolts. Però sempre poden
>> haver-hi efectes no desitjats, per exemple amb paraules que tenen errors
>> ortogràfics o paraules en altres idiomes.
>>
>> Jaume
>>
>> ___
>> Apertium-catala mailing list
>> Apertium-catala@lists.sourceforge.net
>> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>>
> ___
> Apertium-catala mailing list
> Apertium-catala@lists.sourceforge.net
> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


[Apertium-catala] proposta de diccionaris metadix cat, spa, spa-cat

2020-06-20 Thread Jaume Ortolà i Font
Bon dia,

En la branca https://github.com/apertium/apertium-cat/tree/metadix (i en
les equivalents de spa i spa-cat) hi ha una proposta per a afegir
diccionaris metadix. Això permetrà fer traduccions de paraules amb prefixos
que no tenim en els diccionaris (p. ex. pre-, post-, anti-, pro-...). Ho he
provat i funciona bé. Només es farà amb paraules que ja existeixen en el
diccionari i s'etiqueten correctament (adjectius, noms, verbs; cada
categoria amb uns prefixos possibles). Una salvaguarda extra que s'hi pot
afegir és que no es faci amb paraules molt curtes, perquè poden canviar de
grafia (p. ex. *prorus/prorús).

També ho podem aprofitar per a altres coses que ara no podem fer (per
exemple, generar entrades automàticament per a grafies alternatives,
correctes o incorrectes, de la ela geminada).

L'únic que canviarà és que els canvis que abans fèieu en el diccionari .dix
ara els haureu de fer en el .metadix.

Vegeu si hi ha cap inconvenient, i si no, ho tiraré avant.

Salutacions,
Jaume Ortolà
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


[Apertium-catala] Actualització d'Apertium en Wikipedia Content Translation

2020-07-29 Thread Jaume Ortolà i Font
Bon dia,

Em sorprèn veure que en la Viquipèdia catalana encara apareixen errors de
traducció automàtica (spa>cat) que es van resoldre en Apertium fa molt de
temps (ara ja ho comptem en anys). Per això he anat a l'eina de traducció a
comprovar-ho jo mateix, i efectivament hi ha aquests errors.

He trobat per exemple: como los que > *com els quals (correcte: com els
que). Aquesta qüestió estava resolta de fa anys, i amb tota seguretat en
l'última release (2.2.0, novembre del 2019).

Sé que Xavi va parlar amb els encarregats de Wikimedia, i que la cosa
semblava controlada. Però la realitat és que no, que encara treballen amb
versions molt antigues. ¿Què hi falla i què podem fer perquè les
actualitzacions arribin a l'usuari final?

Salutacions,
Jaume Ortolà
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] Tests: a més

2021-03-13 Thread Jaume Ortolà i Font
Missatge de Hèctor Alòs i Font  del dia dj., 11 de
març 2021 a les 17:13:

> Tinc curiositat de com és l'original d'aquesta frase (que està tres
> vegades gairebé igual en el corpus de la Viquipèdia):
>
> plaza en la final de 5 cintas. Durante este ejercicio, *Artemi *Gavezou se
> lesionó el pie.
> El equipo decidió entonces no participar en la final de 2 aros y 6 mazas,
> puesto que a más Bronca
> El equipo decidió entonces no participar en la final de 2 aros y 6 mazas,
> puesto que además Bronca
> Redondo, la gimnasta reserva, no podía competir al no estar inscrita en
> este momento. El conjunto estuvo
>
M'encurioseix què es tradueix per "Bronca". En la versió actual de
> l'article hi ha "Lidia Redondo", cosa que no es tradueix pas per "Bronca
> Redondo".
>

La frase original en el corpus era aquesta. Devia ser una traducció
automàtica defectuosa.
> L'equip va decidir llavors no participar en la final de 2 cèrcols i 6
maces, ja que a més Brega Rodó, la gimnasta reserva, no podia competir al
no estar inscrita en aquest moment.


> Quant a rebre les actualitzacions, potser seria interessant, però el
> problema és que, no sé per què, segueix sense haver-hi a SoftCatalà tres
> dels traductors des del català en què he participat: a l'italià, al sard i
> a l'esperanto. I al del portuguès, no sé quina versió és perquè segueix
> oferint una sola variant de portuguès en comptes de les tres que hi ha des
> de fa any i mig.
>

Quant a afegir parells a la web de Softcatalà, t'haurà de respondre Xavi.
Jo no veig cap inconvenient per a afegir-los-hi, si les traduccions són
raonablement bones. Una altra cosa és que l'ús d'altres parells sigui més o
menys alt.

En els tests diaris podríem afegir altres parells. Però el servidor té
recursos limitats. Per exemple, ara tenim els testvoc desactivats perquè
triguen massa. Si algú ha de treballar activament en un parell determinat,
el podríem activar durant un cert temps.


> Per cert, per al català-castellà se segueix utilitzant la versió del
> traductor per regles en comptes de la neuronal? Em pensava que els
> resultats eren netament pitjors.
>

No tenim cap traductor neuronal català-castellà. Potser et refereixes al
català-anglès. En la web de Softcatalà hi ha els dos disponibles. En els
tests que he enllaçat hi ha l'anglès-català d'Apertium. El neuronal va pou
millor, però els tests no tenen gaire sentit per al neuronal perquè no es
poden afinar els resultats. El neuronal el podrem millorar només quan
tinguem corpus paral·lels de més qualitat.

Salutacions,
Jaume
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


[Apertium-catala] Tests: a més

2021-03-09 Thread Jaume Ortolà i Font
Hèctor,

Veig que intentes millorar l'anàlisi de "a més". És prou complicat, pel que
es veu. En aquests tests hi ha resultats que poden ajudar.

Per exemple, amb el verb "ser" (ser a més) pareix que hauria de ser la
locució.

Jaume

-- Forwarded message -
De: root 
Date: dt., 9 de març 2021, 8:25
Subject: Tests Apertium Softcatalà
To: 


Resultats dels tests

cat-dogv2017-eng (8433):
https://www.softcatala.org/apertium/dev/20210309/cat-dogv2017-eng.html
cat-dogv2017-ron (43895):
https://www.softcatala.org/apertium/dev/20210309/cat-dogv2017-ron.html
cat-dogv2017-spa (12490):
https://www.softcatala.org/apertium/dev/20210309/cat-dogv2017-spa.html
cat-wiki-eng (28821):
https://www.softcatala.org/apertium/dev/20210309/cat-wiki-eng.html
cat-wiki-ron (140852):
https://www.softcatala.org/apertium/dev/20210309/cat-wiki-ron.html
cat-wiki-spa (38030):
https://www.softcatala.org/apertium/dev/20210309/cat-wiki-spa.html
spa-dogv2017-cat (0): No hi ha diferències.
spa-dogv2017-cat_valencia (0): No hi ha diferències.
spa-europarl-cat (0): No hi ha diferències.
spa-europarl-cat_valencia (0): No hi ha diferències.
spa-wiki-cat (0): No hi ha diferències.
spa-wiki-cat_valencia (0): No hi ha diferències.

testvoc.cat-eng (0): No hi ha diferències.
testvoc.cat-eng_US (0): No hi ha diferències.
testvoc.cat-ron (0): No hi ha diferències.
testvoc.cat-spa (0): No hi ha diferències.
testvoc.eng-cat (0): No hi ha diferències.
testvoc.eng-cat_valencia (0): No hi ha diferències.
testvoc.eng-cat_valencia_uni (0): No hi ha diferències.
testvoc.ron-cat (0): No hi ha diferències.
testvoc.spa-cat (0): No hi ha diferències.
testvoc.spa-cat_valencia (0): No hi ha diferències.
testvoc.spa-cat_valencia_uni (0): No hi ha diferències.

testvoc.cat-eng (0): No hi ha errors de testvoc.
testvoc.cat-eng_US (0): No hi ha errors de testvoc.
testvoc.cat-ron (0): No hi ha errors de testvoc.
testvoc.cat-spa (0): No hi ha errors de testvoc.
testvoc.eng-cat (0): No hi ha errors de testvoc.
testvoc.eng-cat_valencia (0): No hi ha errors de testvoc.
testvoc.eng-cat_valencia_uni (0): No hi ha errors de testvoc.
testvoc.ron-cat (0): No hi ha errors de testvoc.
testvoc.spa-cat (0): No hi ha errors de testvoc.
testvoc.spa-cat_valencia (0): No hi ha errors de testvoc.
testvoc.spa-cat_valencia_uni (0): No hi ha errors de testvoc.
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] Tests: a més

2021-03-10 Thread Jaume Ortolà i Font
Hèctor,

Copio els enllaços als nous resultats dels tests. S'hi pot veure la
millora.

Això són uns tests que fem cada dia en un servidor de Softcatalà. Xavi pot
afegir a la llista qui els vulgui rebre.

Salutacions,
Jaume Ortolà

-- Forwarded message -
De: root 
Date: dj., 11 de març 2021 a les 8:23
Subject: Tests Apertium Softcatalà
To: 


Resultats dels tests

cat-dogv2017-eng (17513):
https://www.softcatala.org/apertium/dev/20210311/cat-dogv2017-eng.html
cat-dogv2017-ron (15814):
https://www.softcatala.org/apertium/dev/20210311/cat-dogv2017-ron.html
cat-dogv2017-spa (17226):
https://www.softcatala.org/apertium/dev/20210311/cat-dogv2017-spa.html
cat-wiki-eng (52701):
https://www.softcatala.org/apertium/dev/20210311/cat-wiki-eng.html
cat-wiki-ron (40299):
https://www.softcatala.org/apertium/dev/20210311/cat-wiki-ron.html
cat-wiki-spa (54046):
https://www.softcatala.org/apertium/dev/20210311/cat-wiki-spa.html
spa-dogv2017-cat (0): No hi ha diferències.
spa-dogv2017-cat_valencia (0): No hi ha diferències.
spa-europarl-cat (0): No hi ha diferències.
spa-europarl-cat_valencia (0): No hi ha diferències.
spa-wiki-cat (0): No hi ha diferències.
spa-wiki-cat_valencia (0): No hi ha diferències.

Missatge de Hèctor Alòs i Font  del dia dc., 10 de
març 2021 a les 9:09:

> Gràcies, Jaume, pels exemples. Tens corpus de proves més extensos i
> variats que els meus.
> He afegit unes quantes regles més i, en particular, la que comentes. Hi ha
> casos, però, que són molt complicats. He posat en les regles algunes
> paraules ad-hoc del corpus del DOGV.
>
> Mirant les traduccions també he vist que hi havia problemes amb la
> desambiguació de "sent". He afegit algunes regles.
>
> Cordialment,
> Hèctor
>
> Missatge de Jaume Ortolà i Font  del dia dt., 9 de
> març 2021 a les 11:50:
>
>> Hèctor,
>>
>> Veig que intentes millorar l'anàlisi de "a més". És prou complicat, pel
>> que es veu. En aquests tests hi ha resultats que poden ajudar.
>>
>> Per exemple, amb el verb "ser" (ser a més) pareix que hauria de ser la
>> locució.
>>
>> Jaume
>>
>> -- Forwarded message -
>> De: root 
>> Date: dt., 9 de març 2021, 8:25
>> Subject: Tests Apertium Softcatalà
>> To: 
>>
>>
>> Resultats dels tests
>>
>> cat-dogv2017-eng (8433):
>> https://www.softcatala.org/apertium/dev/20210309/cat-dogv2017-eng.html
>> cat-dogv2017-ron (43895):
>> https://www.softcatala.org/apertium/dev/20210309/cat-dogv2017-ron.html
>> cat-dogv2017-spa (12490):
>> https://www.softcatala.org/apertium/dev/20210309/cat-dogv2017-spa.html
>> cat-wiki-eng (28821):
>> https://www.softcatala.org/apertium/dev/20210309/cat-wiki-eng.html
>> cat-wiki-ron (140852):
>> https://www.softcatala.org/apertium/dev/20210309/cat-wiki-ron.html
>> cat-wiki-spa (38030):
>> https://www.softcatala.org/apertium/dev/20210309/cat-wiki-spa.html
>> spa-dogv2017-cat (0): No hi ha diferències.
>> spa-dogv2017-cat_valencia (0): No hi ha diferències.
>> spa-europarl-cat (0): No hi ha diferències.
>> spa-europarl-cat_valencia (0): No hi ha diferències.
>> spa-wiki-cat (0): No hi ha diferències.
>> spa-wiki-cat_valencia (0): No hi ha diferències.
>>
>> testvoc.cat-eng (0): No hi ha diferències.
>> testvoc.cat-eng_US (0): No hi ha diferències.
>> testvoc.cat-ron (0): No hi ha diferències.
>> testvoc.cat-spa (0): No hi ha diferències.
>> testvoc.eng-cat (0): No hi ha diferències.
>> testvoc.eng-cat_valencia (0): No hi ha diferències.
>> testvoc.eng-cat_valencia_uni (0): No hi ha diferències.
>> testvoc.ron-cat (0): No hi ha diferències.
>> testvoc.spa-cat (0): No hi ha diferències.
>> testvoc.spa-cat_valencia (0): No hi ha diferències.
>> testvoc.spa-cat_valencia_uni (0): No hi ha diferències.
>>
>> testvoc.cat-eng (0): No hi ha errors de testvoc.
>> testvoc.cat-eng_US (0): No hi ha errors de testvoc.
>> testvoc.cat-ron (0): No hi ha errors de testvoc.
>> testvoc.cat-spa (0): No hi ha errors de testvoc.
>> testvoc.eng-cat (0): No hi ha errors de testvoc.
>> testvoc.eng-cat_valencia (0): No hi ha errors de testvoc.
>> testvoc.eng-cat_valencia_uni (0): No hi ha errors de testvoc.
>> testvoc.ron-cat (0): No hi ha errors de testvoc.
>> testvoc.spa-cat (0): No hi ha errors de testvoc.
>> testvoc.spa-cat_valencia (0): No hi ha errors de testvoc.
>> testvoc.spa-cat_valencia_uni (0): No hi ha errors de testvoc.
>>
>>
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


[Apertium-catala] problemes amb la traducció de documents

2023-11-01 Thread Jaume Ortolà i Font
Bon dia.

Donís Seguí em comunica que torna a haver-hi problemes importants amb la
traducció de documents (en principi parla de .docx). Tornen a aparèixer
plens d'asteriscs perquè no es tracta bé la formatació.

¿Podries enviar algun document d'exemple ací a la llista, Donís? Així ho
podem provar i mirem què s'hi pot fer.

Salutacions,
Jaume Ortolà
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala


Re: [Apertium-catala] w=1, w=2

2023-11-01 Thread Jaume Ortolà i Font
Bon dia, Hèctor.

Marc Riera t'ho podrà explicar millor tot això. En tot cas, la selecció
lèxica continua sent necessària i es pot fer de les mateixes maneres que
abans.

Si els casos de "tret" i "peix" van pitjor, és perquè s'han invertit les
prioritats. No hi ha realment selecció. Podríem tornar a les prioritats
anteriors, i a partir d'això treballar en mecanismes de selecció segons el
context.

Jaume Ortolà



Missatge de Hèctor Alòs i Font  del dia dc., 1 de
nov. 2023 a les 7:56:

> Després de llançar una nova versió de la parella sard-italià, m'estic
> posant a actualitzar la català-sard. Feia temps que no tocava el català i
> veig que hi ha molts canvis a spa-cat. No és que pretengui tocar-lo, sinó
> que és per a assegurar-me que el que canvio a apertium-cat no espatlla res.
> M'adono, però, que hi ha canvis a la selecció lèxica que no entenc. Coses
> com:
>
>  pescadopeix n="m"/>
>  pezpeix n="m"/>
>
> Ho he vist perquè trobo que la selecció lèxica de "tret" (disparo/rasgo) i
> "peix" (pez/pescado) ara funcionen força pitjor que abans. En canvi, per a
> "cor" (corazón/coro) és molt millor. Pensava d'afegir algunes regles de
> selecció lèxica per millorar-ho, però sembla que ara es fa per una altra
> banda...
>
> Hèctor
> ___
> Apertium-catala mailing list
> Apertium-catala@lists.sourceforge.net
> https://lists.sourceforge.net/lists/listinfo/apertium-catala
>
___
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala