Snowball y algoritmos de stemming

Rafael Luque Leiva Wed, 29 Oct 2003 07:55:18 -0800


Hola a todos,


En un proyecto de buscador web en el que hemos trabajado recientemente
hemos descubierto Snowball: http://snowball.tartarus.org/

Se trata de un peque�o lenguaje para el manejo de strings que permite
implementar algoritmos de normalizaci�n del lenguaje (steeming
algorithms) mediante sencillos scripts. Posteriormente mediante un
compilador se genera una salida en C o en Java.

Como en cualquier buscador de calidad pretend�amos conseguir que las
consultas fueran case-insensitive y accent-insensitive. Pero adem�s, en
esta ocasi�n tambi�n quer�amos que las b�squedas fueran independientes,
hasta cierto punto, de las terminaciones morfol�gicas. Es decir, que se
pudiera buscar indistintamente por "documentos t�nicos" y "documentaci�n
t�cnica", o por "acceso", "accesible", "accesibilidad", etc.

Para eso necesitabamos implementar un algoritmo de normalizaci�n
(stemmer) que redujera los t�rminos de la consulta a las unidades
m�nimas con significado l�xico (lexemas). Este tipo de algoritmos,
basados en el algoritmo de Porter
(http://www.tartarus.org/~martin/PorterStemmer/) para la lengua inglesa,
son f�ciles de escribir en Snowball para otros idiomas. De hecho, hay
disponibles algoritmos en la p�gina de snowball para varios idiomas,
incluido el espa�ol.

Creo que es este lenguaje es una opci�n muy interesante para cualquier
proyecto de recuperaci�n de informaci�n, en general.

Un saludo, Rafa.

-- 
Rafael Luque, <[EMAIL PROTECTED]>


---------------------------------------------------------------------
Para eliminar la suscripci�n, mail a: [EMAIL PROTECTED]
Para comandos adicionales, mail a: [EMAIL PROTECTED]

Snowball y algoritmos de stemming

Responder a