Estimados, estoy interesado en el tema, principalmente apuntando al procesamiento de lenguaje natural, pero pienso y por lo que he visto en esta lista primero tenemos que leer la documentación en este caso de tsearch (estoy en esto). (http://www.sai.msu.su/~megera/postgres/gist/tsearch/V2/)
Por lo poco que he visto, estas cosas se pueden complementar con funciones que sirven para determinar el parecido de una palabra con otra en base a diferentes técnicas, por si alguien se equivoca al escribir (adjunto link http://www.postgresql.org/docs/8.3/static/fuzzystrmatch.html). Además del conocido "like" Quizas sumar algún kit de procesamiento de lenguaje natural, dependiendo del alcance de lo que quieras hacer: ( http://en.wikipedia.org/wiki/List_of_natural_language_processing_toolkits ) saludos Eduardo. El 16 de agosto de 2011 08:21, Hugo César <hugocesa...@gmail.com> escribió: > Gracias Roberto y Rodolfo por interesarse en el tema... > > > Efectivamente, coincido con ustedes, de ahi que me decidi a enviar la duda > a la lista, esta funcionalidad de postgre se comporta > algo extraña, porque como comenta Roberto busca palabras "parececidas" > pero... entonces, que pasa con la palabra "funcion" ?? > porque no sucede lo mismo??, es decir, de la palabra "funcion" podemos > obtener palabras parecidas como funcionalidad, funcional, etc. > sin embargo, cuando ejecuto select to_tsvector('spanish','función'); no me > devuelve "funci:1" me devuelve "funcion:1", es aqui > donde esta confuso... acaso esto quiere decir que no me arrojara palabras > parecidas ?? solo exactas ?? como saber que palabras > las encontrara exactas y cuales parecidas ?? que proceso adicional tengo > que realizar para solucionar este detalle ?? > > > Saludos y ojala alguien con mucha mas experiencia que nosotros en el tema > nos pueda ayudar un poco mas. > > > Saludos!! > > > > > > El 15 de agosto de 2011 20:48, Rodolfo Paparás > <r...@globalmargin.com>escribió: > > Yo entiendo algo parecido a lo que dice Roberto. FTS compara cada palabra >> con un diccionario de lexemas y ahí hace la vinculación por familia de >> palabras más que por similitud. >> >> Pero también veo que se comporta raro con palabras con tilde o diéresis >> tanto en las búsquedas sobre campos de texto como en las que utilizan >> índices gin o gist. >> >> Si comparo un query usando FTS con otro usando LIKE en algunos casos el >> segundo me devuelve más resultados contrario a lo que uno creería, no? >> >> Si le encontrás la vuelta por favor postealo. >> >> Saludos >> >> PD.: Yo estoy trabajando sobre un 8.4.7 en CENTOS x64 >> >> >> El 15/08/2011 05:11 p.m., Roberto M. Ruiz S. escribió: >> >> El 15/08/2011 14:53, Hugo César escribió: >>> >>>> Que tal lista! >>>> >>>> >>>> Les comento... recien he configurado Tsearch sobre PostgreSQL9 en >>>> Windows, sin embargo, al >>>> estar realizando algunas pruebas me aparecieron algunas dudas, las >>>> cuales les planteo a continuacion: >>>> >>>> Ejecuto las siguientes sentencias tsvector para probar lo que se refiere >>>> a los acentos y funcionan >>>> de maravilla!!! >>>> >>>> select to_tsvector('spanish','**función'); >>>> 'funcion':1 >>>> >>>> select to_tsvector('spanish','**funcion'); >>>> 'funcion':1 >>>> >>>> >>>> Sin embargo, al hacer la misma prueba, pero con la palabra >>>> "administración", los resultados son >>>> diferentes, en el primer resultado me arroja la palabra exactamente como >>>> la necesito (sin el acento), >>>> pero en el segundo resultado me trunca la palabra, alguien sabe porque?? >>>> acaso no se supone que >>>> me deberia regresar la misma palabra pero sin el acento ?? o como se >>>> supone que funciona el >>>> diccionario ?? >>>> >>>> select to_tsvector('spanish','**administracion'); >>>> 'administracion':1 >>>> >>>> select to_tsvector('spanish','**administracion'); >>>> 'administr':1 >>>> >>>> Este detalle me esta afectando al momento de hacer las consultas, ya que >>>> si busco esa >>>> palabra con acentos me arroja una cantidad diferente que si la busco con >>>> el acento. >>>> >>>> Acaso algo configure mal ?? Configure el diccionario unnacent siguiendo >>>> las instrucciones de la pagina >>>> oficial... http://www.postgresql.org/**docs/current/static/unaccent.** >>>> html <http://www.postgresql.org/docs/current/static/unaccent.html> >>>> >>>> Ojala alguno de ustedes me pudiera orientar mas al respecto... >>>> >>>> Saludos cordiales. >>>> >>>> Hugo.- >>>> >>>> No manejo bien el tema pero, observo que esta usando esa funcionalidad >>> para buscar con o sin acento pero lo que yo tengo entendido, es que la idea >>> es buscar cualquier palabra "PARECIDA", es decir con administración se puede >>> encontrar administrar, administrador, administradora, etc. la idea si no >>> estoy mal es que se genera como una palabra raíz que es común a todas >>> palabras "PARECIDAS" y así las encuentra. >>> - >>> Enviado a la lista de correo pgsql-es-ayuda ( >>> pgsql-es-ayuda@postgresql.org**) >>> Para cambiar tu suscripción: >>> http://www.postgresql.org/**mailpref/pgsql-es-ayuda<http://www.postgresql.org/mailpref/pgsql-es-ayuda> >>> >>> >> - >> Enviado a la lista de correo pgsql-es-ayuda ( >> pgsql-es-ayuda@postgresql.org**) >> Para cambiar tu suscripción: >> http://www.postgresql.org/**mailpref/pgsql-es-ayuda<http://www.postgresql.org/mailpref/pgsql-es-ayuda> >> > > -- Eduardo Arenas Castillo. Red de Centros de Salud Familiar UC - Ancora Santiago - Chile of. + 56 2 5814 740 - cel. +56 9 6629 1618