Re: [Apertium-catala] Problemes traduint documents .docx

2019-05-01 Thread Joan Moratinos Jaume
A falta de proves exhaustives, pareix que funciona. L'estratègia és llegir els documents (en format .xml). El text està organitzat en paràgrafs (tag "w:p"), text runs ("w:r") i el fragments de text ("w:t"), de més exterior a més interior. Si una "paraula" està dividida entre dos o més text runs,

Re: [Apertium-catala] Problemes traduint documents .docx

2019-05-01 Thread Mikel L. Forcada
Eliminar etiquetes no és tan senzill com pareix. S'han d'eliminar de manera que el resultat siga vàlid, i això comporta una anàlisi detallada de les etiquetes. Un altre problema és que l'actual procesador d'etiquetes assumeix que on hi ha una etiqueta sempre hi ha una frontera de paraula. Un

Re: [Apertium-catala] Problemes traduint documents .docx

2019-05-01 Thread Jaume Ortolà i Font
No en conec els detalls. El que proposa Joan Moratinos és eliminar les etiquetes que no tenen sentit perquè estan enmig d'una paraula, per exemple una cursiva que talla una paraula pel mig. Això, en algun cas, pot provocar efectes no desitjats, però en general sembla una opció raonable. Val més

Re: [Apertium-catala] Problemes traduint documents .docx

2019-05-01 Thread Mikel L. Forcada
No és gens fàcil. Per a nosaltres, qualsevol etiqueta de format funciona com un blanc i parteix les paraules. Per a arreglar-ho caldria canviar completament la gestió de format actual. Mikel El 30/4/19 a les 23:19, Donís Seguí ha escrit: Bon dia, Sóc Donís, el coordinador, per part de la