Re: Ordnung in Datensalat bringen

Joerg Rieger Mon, 05 Jul 2004 00:49:07 -0700

On Sun, Jul 04, 2004 at 08:34:38PM +0200, Dieter Franzke wrote:
> On Sunday 04 July 2004 20:23, Joerg Rieger wrote:
> > On Sun, Jul 04, 2004 at 08:04:59PM +0200, Thomas Vollmer wrote:
> > > On Sunday 04 July 2004 10:53, Joerg Rieger wrote:
> > >
> > > [...]
> > >
> > > > Also sowas mach ich auch:
> > > >
> > > > find . -exec md5sum {} 2>/dev/null \; | sort | uniq -W 1 -D >
> > > > double.txt
> > > >
> > > > Dauert bei 80 GB gaaanz schön lang.
> > >
> > > außerdem hat der Ansatz ein weiteres Problem. Er findet Doubletten nur
> > > bei 100%iger  Gleichheit. Man denke mal an JPEGs bei denen mal der EXIF
> > > Header angefasst wurde, das Bild gedreht oder eine Farbkorrektur
> > > vorgenommen wurde. Oder diverse Officeformate wo bei einer Version nur
> > > mal auf Speichern gedrückt wurde. Dies sind inhaltlich gleiche Dateien
> > > deren Hash sich aber durchaus unterscheidet.
> >
> > Das ist richtig. Nur würde es ungleich aufwendiger, wenn man, wie in
> > deinen Beispielen, noch solche Fälle berücksichtigen würde.
> 
> für so etwas gibt es auch fertiges:
> filedupe, läuft bei mir unter BSD.
> Ob es ein .deb gibt entzieht sich im Moment meiner Kenntnis....


Zumindest in unstable gibts eins Package: fdupes

Geht auch deutlich flotter zur Sache als meine "Lösung" bei gleichen 
Daten:

fdupes
real    0m3.000s
user    0m1.518s
sys     0m0.625s

find+md5sum&co
real    0m37.227s
user    0m20.852s
sys     0m4.438s


-- 


-- 
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject "unsubscribe". Probleme? Mail an [EMAIL PROTECTED] (engl)

Re: Ordnung in Datensalat bringen

Antwort per Email an