Re: [dev] era: Consolidar Diccionario en español

Alexandro Colorado Sun, 29 Oct 2006 22:23:15 -0800

Puede ser una interesante coninsidencia pero en la lista deinternacionalizacion/localizacon 10|n hay una referencia al blog de RobertVoja sobre la consolidacion de diccionarios de terminologia medica/legaletc. La idea va mas aya ya que hasta incluye un cliente para correrlo enmysql y almacenar estas peticiones:


http://blog.vojta.name/archives/2006/03/26/T15_29_40/


Puede ser interesante para impulsar esta iniciativa.

On Wed, 25 Oct 2006 16:10:58 -0400, Santiago Bosio<[EMAIL PROTECTED]> wrote:

Fabián Flores escribió:
El Miércoles, 25 de Octubre de 2006 14:22, Santiago Bosio escribió:
Una vez te acostumbras a los comandos básicos (checkout, update,commit,
etc.) lo demás no importa mucho.
Bien supongo que tendré que aprender a usarlo.
TRY: indica el orden de reemplazo de caracteres. El algoritmo que
proporciona las sugerencias utiliza distintas estrategias para sugerir
reemplazos cuando una palabra no se encuentra en el diccionario. Dos de
ellas son: reemplazar una letra por otra del alfabeto, y la otra
insertar una letra en cada posición de la palabra. La sentencia TRY le
indica en qué orden intentar con cada letra, que se encuentranordenadas
por frecuencia de aparición en el diccionario.
¿Dónde encuentro más información para entender un poco mejor cómofunciona el
algoritmo?
Realmente no hay documentación sobre esto, supongo que se puede ver enel mismo código de HunSpell (C++), o consultando con Laszlo Nemeth (elautor). Igualmente, lo que te describí es uno de los métodos deobtención de sugerencias, HunSpell utiliza muchos más.
Las sentencias REP se utilizan para indicar errores comunes que afectan
más de una letra. Ya que el algoritmo de reemplazo es de distancia-1(es
decir reemplaza o inserta una única letra). Errores como "axión" nunca
obtendrían la sugerencia "acción" mediante este algoritmo.
REP ge hue
/*esto creo entenderlo, pero no estoy seguro ¿cuál es el posible errorque
permite corregir*/
REP 20  //esto no lo entiendo
La regla es "REP güe hue" (no estás viendo los acentos) y es una reglade reemplazo sugerido por fonética (más de una vez he visto escrito'güevo').
¿Se contempla alguna clasificación de errores?, por ejemplo errores quese
cometen al teclear, además de errores ortográficos habituales.
No. No existe algo así como clasificación de errores. Se supone que lamayoría de los errores se producen al teclear (falta o agregado de unaletra), o son producidos por equivocación (cambio de 's' por 'c', 'v'por 'b', etc.). Todos estos errores pueden corregirse mediante elalgoritmo básico de reemplazo, eliminación e inserción que te describíantes. Son errores llamados de distancia-1 porque sólo contienen unúnico carácter equivocado.
Después existen otros tipos de errores ortográficos más complejos, queinvolucran más de una letra, como por ejemplo el que te mencioné deconfusión entre 'cc' y 'x', o entre 'll' e 'y'. Estos sólo pueden sercapturados mediante reglas REP. Otros son imposibles de capturar, comopor ejemplo 'uéso', si lo que quise escribir es 'hueso', si no essobrecargando demasiado el fichero de afijos con reglas REP, cosa quepuede impactar seriamente el rendimiento de la suite.
Con respecto al REP 20, el número en el encabezado del grupo se refieresiempre a la cantidad de reglas que contiene. Tan sencillo como eso.
¿Se establece algún contexto para estas reglas?, porque sino se meocurre que
escribo Gerardo y el corrector ortográfico me sugiere Huerardo.
No, porque lo que el algoritmo hace es generar todas las posibilidades ydejar únicamente como sugerencias las palabras que sí encuentra en eldiccionario.
Una entrada como 'abominable/S' indica que la palabra 'abominable' es
válida, y también lo son las que resulten de aplicarle las reglas de
reescritura del conjunto identificado con el carácter 'S' (en este caso
es una regla de sufijos -específicamente la que forma plurales-).
Voy a estudiar un poco las reglas para entender algo más. Pero primerosupongoque tendré que cambiar la codificación de mi sistema porque no veocaracteres
acentuados:
SFX S 0 s [ace�gi�o�tuw]
SFX S 0 es [bdh�lmry]
SFX S �aes �SFX S 0 es [^���]n

y no me acuerdo cómo hacerlo, así que te agredecería me tires una pista
(Kubuntu 6.06).
La codificación utilizada en los ficheros es la ISO-8859-1. Por logeneral los Linux modernos utilizan UTF-8. Las posibilidades son muchas:algunos editores de texto (vim, entre ellos) detecta y convierteautomáticamente los ficheros. O los puedes abrir con el mismoOpenOffice.org indicándole cuál es la codificación utilizada. Oconvertir los archivos desde una terminal con el comando 'iconv -f utf8-t iso8859-1 fichero-entrada'.
Estas son herramientas que me han facilitado a mí el mantenimiento ylas
he subido al repositorio para que las puedan utilizar (y mejorar)
quienes colaboran. No soy un experto programado de scripts en shell,
pero es lo que mejor me salió.
¿Qué podría decir yo?, que C es la tercer letra del alfabeto y Shell esuna
empresa petrolera :)
El programita de C permite obtener el
listado de palabras contenido en los diccionarios de usuario (los .dic)
por la salida estándar.
¿Por la puerta? :)
El script make_dict.sh permite generar los
paquetes de diccionario, utilizando las herramientas de MySpell. El
script palabras.sh permite añadir o eliminar palabras de las listas. El
script remover_comentarios.sh remueve los comentarios del fichero de
afijos antes de generar la versión final.
Oka. ¿Qué herramientas tengo que instalar? (gcc ya está instalado,aunque nosignifique mucho porque no se compilar ni un "Hola Mundo"). ¿Esnecesario
aprender C? (si hay que hacerlo, lo hacemos)
No es necesario conocimientos de programación, trabajar sobre loslistados de palabras requiere únicamente de un editor de textos, quefácilmente puede ser el mismo OO.org.
Ninguno de estos trabajan
sobre el servidor, sino que al hacer el checkout a tu copia local, te
quedan disponibles para utilizarlos.
¿Cómo hago para comenzar a aprender Subversion sin riesgo de sufrir unataque
de pánico o que el checkout me lo tenga que hacer a mí un psiquiatra?
Desde una terminal:

[EMAIL PROTECTED] ~]$ svn checkout https://svn.hispalinux.es/svn/rla-es
Eso te descarga una copia completa del árbol de desarrollo. Puedesrealizar todos los cambios que quieras en tu copia local, pero parasubirlos necesitarías una cuenta de usuario habilitado.
Espero haberte aclarado algo el panorama.
Sí, está muy claro que no veré la luz del sol los próximos 360 años :)
Bien, hablando en serio hasta ahora me parece que no podré empezar acolaborar
hasta que más o menos entienda algo, pero espero que con tu ayuda no sea
tanto tiempo.
Esperemos que sea así.

---------------------------------------------------------------------
To unsubscribe, e-mail: [EMAIL PROTECTED]
For additional commands, e-mail: [EMAIL PROTECTED]




--
Alexandro Colorado
Grupo de Usuarios Linux Tabasco
http://www.gultab.org

OpenOffice.org
Community Contact // Mexico
http://www.openoffice.org

---------------------------------------------------------------------
To unsubscribe, e-mail: [EMAIL PROTECTED]
For additional commands, e-mail: [EMAIL PROTECTED]

Re: [dev] era: Consolidar Diccionario en español

Responder a