No lo probé, porque la comparación para detectar duplicados no es directa, tengo que comparar varias cadenas posibles para cada caso, lo que me parece que incrementaría mucho el tiempo de agregación a la colección. Pero tal vez me equivoque. Voy a probar eso, gracias.
2010/11/3 Andres Valloud <[email protected]> > Tambien podes implementar #= y #hash de alguna manera que corresponda, > y poner todo en un Set... > > 2010/11/3 Esteban Lorenzano <[email protected]>: > > supongo que algún problema de indices tenés... pero esto que digo es tan > una > > trivialidad que seguro ya lo intentaste: armar un btree ordenado según el > > índice por el cual buscas los duplicados? > > Saludos, > > E > > > > El 03/11/2010, a las 4:04p.m., Norberto Manzanos escribió: > > > > Muchachos ( y no tanto) de ClubSmalltalk > > > > Tengo un problema bastante grande y quería ver si alguien me puede dar un > > consejo. > > Tengo una colección de datos en archivos (no es exactamente una base de > > datos, pero parecido) entre los cuales hay duplicados. Los duplicados no > son > > triviales, hay que hacer algunas cosas para detectarlos, pero ese no es > el > > punto. > > Una vez que estos datos estén normalizados pueden persistirse de varias > > formas, tampoco ese es el problema. > > El cuello de botella es la búsqueda en las colecciones. Probé colecciones > en > > memoria, colecciones Magma, Sandstone y el problema es siempre el mismo: > el > > tiempo que tarda la búsqueda. Magma, que fue lo más eficiente, podría > llegar > > a tardar 2 o 3 días para procesar 76000 registros. Un proceso similar, > > aunque con objetos más complicados, me tardó 2 semanas hace un tiempo. > Los > > de Magma siempre me dicen que algo mal debo estar haciendo, pero nunca > > aparece que es eso que está mal. No creo estar haciendo nada que pueda > hacer > > que un proceso que debería tardar algunas horas tarde varios días o más. > > Estoy a punto de intentar con una base SQL, lo cual me deprime mucho. > > ¿Alguien conoce algo para Squeak que permita detectar elementos en > > colecciones en forma más eficiente? ¿Algún truco al menos? > > > > Gracias > > > > -- > > Norberto Manzanos > > Instituto de Investigaciones en Humanidades y Ciencias Sociales (IdIHCS) > > FaHCE/UNLP - CONICET > > Calle 48 e/ 6 y 7 s/Nº - 8º piso - oficina 803 > > Tel: +54-221-4230125 interno 262 > > > > -- > > To post to this group, send email to [email protected] > > To unsubscribe from this group, send email to > > [email protected]<clubsmalltalk%[email protected]> > > > > http://www.clubSmalltalk.org > > > > -- > > To post to this group, send email to [email protected] > > To unsubscribe from this group, send email to > > [email protected]<clubsmalltalk%[email protected]> > > > > http://www.clubSmalltalk.org > > -- > To post to this group, send email to [email protected] > To unsubscribe from this group, send email to > [email protected]<clubsmalltalk%[email protected]> > > http://www.clubSmalltalk.org > -- Norberto Manzanos Instituto de Investigaciones en Humanidades y Ciencias Sociales (IdIHCS) FaHCE/UNLP - CONICET Calle 48 e/ 6 y 7 s/Nº - 8º piso - oficina 803 Tel: +54-221-4230125 interno 262 -- To post to this group, send email to [email protected] To unsubscribe from this group, send email to [email protected] http://www.clubSmalltalk.org
