Hola a todos,
En un proyecto de buscador web en el que hemos trabajado recientemente hemos descubierto Snowball: http://snowball.tartarus.org/ Se trata de un peque�o lenguaje para el manejo de strings que permite implementar algoritmos de normalizaci�n del lenguaje (steeming algorithms) mediante sencillos scripts. Posteriormente mediante un compilador se genera una salida en C o en Java. Como en cualquier buscador de calidad pretend�amos conseguir que las consultas fueran case-insensitive y accent-insensitive. Pero adem�s, en esta ocasi�n tambi�n quer�amos que las b�squedas fueran independientes, hasta cierto punto, de las terminaciones morfol�gicas. Es decir, que se pudiera buscar indistintamente por "documentos t�nicos" y "documentaci�n t�cnica", o por "acceso", "accesible", "accesibilidad", etc. Para eso necesitabamos implementar un algoritmo de normalizaci�n (stemmer) que redujera los t�rminos de la consulta a las unidades m�nimas con significado l�xico (lexemas). Este tipo de algoritmos, basados en el algoritmo de Porter (http://www.tartarus.org/~martin/PorterStemmer/) para la lengua inglesa, son f�ciles de escribir en Snowball para otros idiomas. De hecho, hay disponibles algoritmos en la p�gina de snowball para varios idiomas, incluido el espa�ol. Creo que es este lenguaje es una opci�n muy interesante para cualquier proyecto de recuperaci�n de informaci�n, en general. Un saludo, Rafa. -- Rafael Luque, <[EMAIL PROTECTED]> --------------------------------------------------------------------- Para eliminar la suscripci�n, mail a: [EMAIL PROTECTED] Para comandos adicionales, mail a: [EMAIL PROTECTED]
