Re: Ordnung in Datensalat bringen

Thomas Vollmer Sun, 04 Jul 2004 11:05:53 -0700

On Sunday 04 July 2004 10:53, Joerg Rieger wrote:
> On Sat, Jul 03, 2004 at 10:58:28PM +0200, Michelle Konzack wrote:
> > Am 2004-07-03 22:50:36, schrieb Rainer Bendig, Digitally Impressed:
> > >Michelle Konzack schrieb am 03.07.2004 22:30:


Hi,

[...]

> Also sowas mach ich auch:
>
> find . -exec md5sum {} 2>/dev/null \; | sort | uniq -W 1 -D >
> double.txt
>
> Dauert bei 80 GB gaaanz sch�n lang.

au�erdem hat der Ansatz ein weiteres Problem. Er findet Doubletten nur 
bei 100%iger  Gleichheit. Man denke mal an JPEGs bei denen mal der EXIF 
Header angefasst wurde, das Bild gedreht oder eine Farbkorrektur 
vorgenommen wurde. Oder diverse Officeformate wo bei einer Version nur 
mal auf Speichern gedr�ckt wurde. Dies sind inhaltlich gleiche Dateien 
deren Hash sich aber durchaus unterscheidet.

Gru�
        Thomas

-- 
IRC: TomseDive  Jabber: [EMAIL PROTECTED]       ICQ: 4843585

pgptdtZekDAYS.pgp
Description: PGP signature

Re: Ordnung in Datensalat bringen

Antwort per Email an