El dl 26 de 09 de 2011 a les 16:49 +0200, en/na Mikel Forcada va escriure: > Josefa [cc: Apertium-stuff]: > > [Apertium-stuff: I hope Spanish is OK — will be glad to translate or > clarify if not]
The list is expressly, and militantly, multilingual :) > Muchas gracias por el mensaje y por el tiempo dedicado. Te respondo y > mando copia a la lista de Apertium para difundir tu preprocesador PHP > de DOCX entre los desarrolladores y usuarios y por si alguno deseara > ponerse en contacto contigo. > > El problema no sólo afecta a los archivos DOCX sino en general a > cualquiera de los formatos que procesa Apertium, y es difícil de > resolver generalmente. Se trata de una decisión razonable de diseño de > Apertium, que asume, sin fijarse en las etiquetas concretas, que una > palabra nunca puede contener etiquetas, y que, por tanto, cualquier > etiqueta de formato es semánticamente equivalente a un espacio en > blanco. Claramente, realizando un análisis de las etiquetas se podrían > detectar secuencias que siempre ocurren dentro de una palabra como > <w:softHyphen /> pero tu mismo ejemplo indica la complejidad de la > tarea en vista de que se pueden intercalar etiquetas como "<w:rPr> > <w:sz w:val="28" /> <w:lang w:val="es-MX" /> </w:rPr>" (¿qué sentido > tiene indicar nuevamente el tamaño del tipo y la lengua de un > documento en mitad de una palabra?). > > En casos como este estaría bien un "limpiador" general de DOCX que > detectara los casos en los que con toda seguridad las etiquetas se > pueden evitar, pero parece difícil anticiparse a todas las > situaciones. Hay gente que ha usado también PHP para analizar la > "calidad" del etiquetado de un documento > (http://www.boxuk.com/blog/automated-testing-word-documents) y que tal > vez podrían inspirar a los desarrolladores, pero parece que sería una > tarea cuyo interés es más general que el de reparar simplemente > documentos para Apertium. Estoy de acuerdo un limpiador general sería mucho mejor. He visto el mismo problema con ficheros ODT, y a veces, se puede ver que el "guión blando" aparece en medio de una palabra. > Incluyo tu "workaround", a ver si a alguien se le ocurre algo. Hay también problemas parecidos relacionados con multipalabras: $ echo "take <b>away</b>" | apertium-deshtml | lt-proc en-ca.automorf.bin ^take away/take<vblex><sep><inf># away/take<vblex><sep><pres># away $^./.<sent>$[ <b>][][<\/b> ] $ echo "a <b>lot</b> of" | apertium-deshtml | lt-proc en-ca.automorf.bin ^a lot of/a lot of<det><qnt><sp>$^./.<sent>$[ <b>][<\/b> ][][ ] I don't know how far we could go in treating this problem. Improving format handling would definitely be something worth looking at for a student. Fran ------------------------------------------------------------------------------ All the data continuously generated in your IT infrastructure contains a definitive record of customers, application performance, security threats, fraudulent activity and more. Splunk takes this data and makes sense of it. Business sense. IT sense. Common sense. http://p.sf.net/sfu/splunk-d2dcopy1 _______________________________________________ Apertium-stuff mailing list [email protected] https://lists.sourceforge.net/lists/listinfo/apertium-stuff
