Puede ser una interesante coninsidencia pero en la lista de internacionalizacion/localizacon 10|n hay una referencia al blog de Robert Voja sobre la consolidacion de diccionarios de terminologia medica/legal etc. La idea va mas aya ya que hasta incluye un cliente para correrlo en mysql y almacenar estas peticiones:

http://blog.vojta.name/archives/2006/03/26/T15_29_40/

Puede ser interesante para impulsar esta iniciativa.


On Wed, 25 Oct 2006 16:10:58 -0400, Santiago Bosio <[EMAIL PROTECTED]> wrote:

Fabián Flores escribió:
El Miércoles, 25 de Octubre de 2006 14:22, Santiago Bosio escribió:

Una vez te acostumbras a los comandos básicos (checkout, update, commit,
etc.) lo demás no importa mucho.

Bien supongo que tendré que aprender a usarlo.


TRY: indica el orden de reemplazo de caracteres. El algoritmo que
proporciona las sugerencias utiliza distintas estrategias para sugerir
reemplazos cuando una palabra no se encuentra en el diccionario. Dos de
ellas son: reemplazar una letra por otra del alfabeto, y la otra
insertar una letra en cada posición de la palabra. La sentencia TRY le
indica en qué orden intentar con cada letra, que se encuentran ordenadas
por frecuencia de aparición en el diccionario.

¿Dónde encuentro más información para entender un poco mejor cómo funciona el
algoritmo?


Realmente no hay documentación sobre esto, supongo que se puede ver en el mismo código de HunSpell (C++), o consultando con Laszlo Nemeth (el autor). Igualmente, lo que te describí es uno de los métodos de obtención de sugerencias, HunSpell utiliza muchos más.
Las sentencias REP se utilizan para indicar errores comunes que afectan
más de una letra. Ya que el algoritmo de reemplazo es de distancia-1 (es
decir reemplaza o inserta una única letra). Errores como "axión" nunca
obtendrían la sugerencia "acción" mediante este algoritmo.

REP ge hue
/*esto creo entenderlo, pero no estoy seguro ¿cuál es el posible error que
permite corregir*/
REP 20  //esto no lo entiendo

La regla es "REP güe hue" (no estás viendo los acentos) y es una regla de reemplazo sugerido por fonética (más de una vez he visto escrito 'güevo').
¿Se contempla alguna clasificación de errores?, por ejemplo errores que se
cometen al teclear, además de errores ortográficos habituales.


No. No existe algo así como clasificación de errores. Se supone que la mayoría de los errores se producen al teclear (falta o agregado de una letra), o son producidos por equivocación (cambio de 's' por 'c', 'v' por 'b', etc.). Todos estos errores pueden corregirse mediante el algoritmo básico de reemplazo, eliminación e inserción que te describí antes. Son errores llamados de distancia-1 porque sólo contienen un único carácter equivocado.

Después existen otros tipos de errores ortográficos más complejos, que involucran más de una letra, como por ejemplo el que te mencioné de confusión entre 'cc' y 'x', o entre 'll' e 'y'. Estos sólo pueden ser capturados mediante reglas REP. Otros son imposibles de capturar, como por ejemplo 'uéso', si lo que quise escribir es 'hueso', si no es sobrecargando demasiado el fichero de afijos con reglas REP, cosa que puede impactar seriamente el rendimiento de la suite.

Con respecto al REP 20, el número en el encabezado del grupo se refiere siempre a la cantidad de reglas que contiene. Tan sencillo como eso.
¿Se establece algún contexto para estas reglas?, porque sino se me ocurre que
escribo Gerardo y el corrector ortográfico me sugiere Huerardo.


No, porque lo que el algoritmo hace es generar todas las posibilidades y dejar únicamente como sugerencias las palabras que sí encuentra en el diccionario.
Una entrada como 'abominable/S' indica que la palabra 'abominable' es
válida, y también lo son las que resulten de aplicarle las reglas de
reescritura del conjunto identificado con el carácter 'S' (en este caso
es una regla de sufijos -específicamente la que forma plurales-).

Voy a estudiar un poco las reglas para entender algo más. Pero primero supongo que tendré que cambiar la codificación de mi sistema porque no veo caracteres
acentuados:
SFX S 0 s [ace�gi�o�tuw]
SFX S 0 es [bdh�lmry]
SFX S �aes �SFX S 0 es [^���]n

y no me acuerdo cómo hacerlo, así que te agredecería me tires una pista
(Kubuntu 6.06).


La codificación utilizada en los ficheros es la ISO-8859-1. Por lo general los Linux modernos utilizan UTF-8. Las posibilidades son muchas: algunos editores de texto (vim, entre ellos) detecta y convierte automáticamente los ficheros. O los puedes abrir con el mismo OpenOffice.org indicándole cuál es la codificación utilizada. O convertir los archivos desde una terminal con el comando 'iconv -f utf8 -t iso8859-1 fichero-entrada'.
Estas son herramientas que me han facilitado a mí el mantenimiento y las
he subido al repositorio para que las puedan utilizar (y mejorar)
quienes colaboran. No soy un experto programado de scripts en shell,
pero es lo que mejor me salió.

¿Qué podría decir yo?, que C es la tercer letra del alfabeto y Shell es una
empresa petrolera :)


El programita de C permite obtener el
listado de palabras contenido en los diccionarios de usuario (los .dic)
por la salida estándar.

¿Por la puerta? :)


El script make_dict.sh permite generar los
paquetes de diccionario, utilizando las herramientas de MySpell. El
script palabras.sh permite añadir o eliminar palabras de las listas. El
script remover_comentarios.sh remueve los comentarios del fichero de
afijos antes de generar la versión final.

Oka. ¿Qué herramientas tengo que instalar? (gcc ya está instalado, aunque no signifique mucho porque no se compilar ni un "Hola Mundo"). ¿Es necesario
aprender C? (si hay que hacerlo, lo hacemos)


No es necesario conocimientos de programación, trabajar sobre los listados de palabras requiere únicamente de un editor de textos, que fácilmente puede ser el mismo OO.org.
Ninguno de estos trabajan
sobre el servidor, sino que al hacer el checkout a tu copia local, te
quedan disponibles para utilizarlos.

¿Cómo hago para comenzar a aprender Subversion sin riesgo de sufrir un ataque
de pánico o que el checkout me lo tenga que hacer a mí un psiquiatra?


Desde una terminal:

[EMAIL PROTECTED] ~]$ svn checkout https://svn.hispalinux.es/svn/rla-es

Eso te descarga una copia completa del árbol de desarrollo. Puedes realizar todos los cambios que quieras en tu copia local, pero para subirlos necesitarías una cuenta de usuario habilitado.

Espero haberte aclarado algo el panorama.

Sí, está muy claro que no veré la luz del sol los próximos 360 años :)

Bien, hablando en serio hasta ahora me parece que no podré empezar a colaborar
hasta que más o menos entienda algo, pero espero que con tu ayuda no sea
tanto tiempo.


Esperemos que sea así.

---------------------------------------------------------------------
To unsubscribe, e-mail: [EMAIL PROTECTED]
For additional commands, e-mail: [EMAIL PROTECTED]




--
Alexandro Colorado
Grupo de Usuarios Linux Tabasco
http://www.gultab.org

OpenOffice.org
Community Contact // Mexico
http://www.openoffice.org

---------------------------------------------------------------------
To unsubscribe, e-mail: [EMAIL PROTECTED]
For additional commands, e-mail: [EMAIL PROTECTED]

Responder a