Muchachos ( y no tanto) de ClubSmalltalk

Tengo un problema bastante grande y quería ver si alguien me puede dar un
consejo.
Tengo una colección de datos en archivos (no es exactamente una base de
datos, pero parecido) entre los cuales hay duplicados. Los duplicados no son
triviales, hay que hacer algunas cosas para detectarlos, pero ese no es el
punto.
Una vez que estos datos estén normalizados pueden persistirse de varias
formas, tampoco ese es el problema.
El cuello de botella es la búsqueda en las colecciones. Probé colecciones en
memoria, colecciones Magma, Sandstone y el problema es siempre el mismo: el
tiempo que tarda la búsqueda. Magma, que fue lo más eficiente, podría llegar
a tardar 2 o 3 días para procesar 76000 registros. Un proceso similar,
aunque con objetos más complicados, me tardó 2 semanas hace un tiempo. Los
de Magma siempre me dicen que algo mal debo estar haciendo, pero nunca
aparece que es eso que está mal. No creo estar haciendo nada que pueda hacer
que un proceso que debería tardar algunas horas tarde varios días o más.
Estoy a punto de intentar con una base SQL, lo cual me deprime mucho.
¿Alguien conoce algo para Squeak que permita detectar elementos en
colecciones en forma más eficiente? ¿Algún truco al menos?

Gracias

-- 
Norberto Manzanos
Instituto de Investigaciones en Humanidades y Ciencias Sociales (IdIHCS)
FaHCE/UNLP - CONICET
Calle 48 e/ 6 y 7 s/Nº - 8º piso - oficina 803
Tel: +54-221-4230125 interno 262

-- 
To post to this group, send email to [email protected]
To unsubscribe from this group, send email to 
[email protected]

http://www.clubSmalltalk.org

Responder a