Ayer en la noche, Alejandro Barros dijo:
> Sen~ores,

Señor!

> Estoy buscando alguna herramienta para indexar (keywords) un archivo de texto
> (cada registro tiene dos campos número de registro y texto) y luego realizar
> búsquedas eficientes en el, alguna recomendación?

Aun un poco amplia la pregunta. Algunas posibilidades no del todo
descartables:

* Usar un indexador de "texto completo", como namazu, swish (hay swish++
  y swish-e), glimpse, etc. Esto no considera la estructura que tengas
  en el archivo, "todo vale" (aunque puedes deberias poder especificar
  que es un stopword y que no). Alguno de esos trae (o existe para el)
  una fachada WWW.

* Escribir un scripticillo (en Perl o lo que sea) que te genere un
  indice invertido con entradas del tipo

    <token> <archivo:linea> <archivo:linea> ...

  y escribir otro scripticillo para consultar (o hacerlo a punta de
  grep's...).

* Usar `ctags' para generar el indice anterior (--language=none, y dar
  una regexp para el caso).

* Meterlo todo a una BD, agregar indices, y hacer las consultas en
  SQL. Supongo que no es ni 1/2 optimo si los textos tienen cierto
  largo, pero vale la pena considerarlo si las busquedas son solo por
  prefijos de largo definido (por ejemplo).

Ojala te sirva alguna idea. Yo probaria con la primera :)

Saludos,

-- 
Cristian Gutierrez                      http://www.dcc.uchile.cl/~crgutier
[EMAIL PROTECTED]                        Jabber:[EMAIL PROTECTED]

I'd rather write programs to write programs than write programs.
-- Dick  Sites, Digital Equipment Corporation

Responder a