El dl 26 de 09 de 2011 a les 16:49 +0200, en/na Mikel Forcada va
escriure:
> Josefa [cc: Apertium-stuff]:
> 
> [Apertium-stuff: I hope Spanish is OK — will be glad to translate or
> clarify if not]

The list is expressly, and militantly, multilingual :)

> Muchas gracias por el mensaje y por el tiempo dedicado. Te respondo y
> mando copia a la lista de Apertium para difundir tu preprocesador PHP
> de DOCX entre los desarrolladores y usuarios y por si alguno deseara
> ponerse en contacto contigo. 
> 
> El problema no sólo afecta a los archivos DOCX sino en general a
> cualquiera de los formatos que procesa Apertium, y es difícil de
> resolver generalmente. Se trata de una decisión razonable de diseño de
> Apertium, que asume, sin fijarse en las etiquetas concretas, que una
> palabra nunca puede contener etiquetas, y que, por tanto, cualquier
> etiqueta de formato es semánticamente equivalente a un espacio en
> blanco. Claramente, realizando un análisis de las etiquetas se podrían
> detectar secuencias que siempre ocurren dentro de una palabra como
> <w:softHyphen /> pero tu mismo ejemplo indica la complejidad de la
> tarea en vista de que se pueden intercalar etiquetas como "<w:rPr>
> <w:sz w:val="28" />  <w:lang w:val="es-MX" /> </w:rPr>" (¿qué sentido
> tiene indicar nuevamente el tamaño del tipo y la lengua de un
> documento en mitad de una palabra?).
> 
> En casos como este estaría bien un "limpiador" general de DOCX que
> detectara los casos en los que con toda seguridad las etiquetas se
> pueden evitar, pero parece difícil anticiparse a todas las
> situaciones. Hay gente que ha usado también PHP para analizar la
> "calidad" del etiquetado de un documento
> (http://www.boxuk.com/blog/automated-testing-word-documents) y que tal
> vez podrían inspirar a los desarrolladores, pero parece que sería una
> tarea cuyo interés es más general que el de  reparar simplemente
> documentos para Apertium.

Estoy de acuerdo un limpiador general sería mucho mejor. He visto el
mismo problema con ficheros ODT, y a veces, se puede ver que el "guión
blando" aparece en medio de una palabra.

> Incluyo tu "workaround", a ver si a alguien se le ocurre algo.

Hay también problemas parecidos relacionados con multipalabras:

$ echo "take <b>away</b>" | apertium-deshtml | lt-proc
en-ca.automorf.bin 
^take away/take<vblex><sep><inf># away/take<vblex><sep><pres># away
$^./.<sent>$[ <b>][][<\/b>
]

$ echo "a <b>lot</b> of" | apertium-deshtml | lt-proc
en-ca.automorf.bin 
^a lot of/a lot of<det><qnt><sp>$^./.<sent>$[ <b>][<\/b> ][][
]

I don't know how far we could go in treating this problem. Improving
format handling would definitely be something worth looking at for a
student.

Fran


------------------------------------------------------------------------------
All the data continuously generated in your IT infrastructure contains a
definitive record of customers, application performance, security
threats, fraudulent activity and more. Splunk takes this data and makes
sense of it. Business sense. IT sense. Common sense.
http://p.sf.net/sfu/splunk-d2dcopy1
_______________________________________________
Apertium-stuff mailing list
[email protected]
https://lists.sourceforge.net/lists/listinfo/apertium-stuff

Reply via email to