Nelson, lo que planteas fue lo que me plantie yo antes de hacer el
programa... es bastante mas eficiente hacer eso, el tema es cuando tenes un
archivo que no tiene nada que ver el nombre y aun así el archivo es el
mismo... en el mayor de los casos no va a suceder, peeeero algunos casos
sucede, el programa tendría que detectarlo...pero creo que voy a terminar
filtrando los archivos por nombre y extension.

Si los archivos tienen el nombre parecido AND tienen la misma extension
ENTONCES
      asumo que son iguales  y le aplico MD5 para corroborar

Dj Tiesto - Adagio 4 Strings.ogg

Tiesto - Adagio for strings.ogg

Posiblemente sean el mismo...pero supon que uno de ellos esta cortado por x
razón..el MD5 detecta que son distintos...y esta perfecto.

El hecho es si decis: Voy a probar este progama a ver q tal funciona...voy a
agarrar este archivo y copiarlo y cambiarle el nombre.... x.png  a y.gif
....corro el programita..no lo detecta..ahh q porqueria...ya mismo lo borro
:P

Por esa razón, prefiero que haga el MD5...aunq si no se puede mejorar la
eficiencia voy a terminar aplicando el "Filtro" y el algoritmo que detecta
si los nombres son parecidos.



On 9/1/07, nelson fernandez <[EMAIL PROTECTED]> wrote:
>
> Porque en vez de hacer un hash de 'todos' los archivos no solo hacerlo
> de los que se podrian 'parecer' ?... agregarle más inteligencia al
> algoritmo de búsqueda.
>
> por ejemplo, ver si hay 2 nombres iguales de archivos y usar el método
> de hash para resolverlo. pero si los nombres son distintos y las
> extensiones son distintas (comparar un ubuntu.iso con
> mafalda_naked.jpg tiene sentido ?) no compararía. luego por cada grupo
> de archivos (agrupados por extensiones ?) se podría usar el algoritmo
> de levenshtein [1][2] para ver si tienen nombres parecidos y solo con
> los que se acerquen mucho usar el método de calcular el hash.
> me parece que en lotes grandes vas a obtener mejores resultados
>
> [1] http://www.merriampark.com/ld.htm
> [2] http://rubyforge.org/projects/text
>
>
> --
> :: nelson ::
> artesano de software
> http://netflux.com.ar
> _______________________________________________
> Ruby mailing list
> [email protected]
> http://lista.rubyargentina.com.ar/listinfo.cgi/ruby-rubyargentina.com.ar
>



-- 
Martín Sagastume
094-575846
Montevideo - Uruguay
http://musicapastillera.blogspot.com
_______________________________________________
Ruby mailing list
[email protected]
http://lista.rubyargentina.com.ar/listinfo.cgi/ruby-rubyargentina.com.ar

Responder a