Re: Maß für Ähnlichkeit von Dateinhalten (Text)

Konrad Rosenbaum Tue, 14 Dec 2010 08:12:22 -0800

On Tuesday 14 December 2010, Bernhard Schiffner wrote:
> nehmen wir an ich hätte einen Quelltext geschrieben. Ich kenne Filename
> und - größe, Hashsumme etc.
> 
> Jemand ändert nun den Dateinamen und ergänzt den Inhalt geringfügig.
> Name und Hash ändern sich.
> 
> Gibt es eine Möglichkeit die weitgehende Ähnlichkeit der beiden Dateien
> in irgendeinem Maß festzulegen?
> (Vergleich auf alle möglichen Substrings an allen möglichen Orten fällt
> wegen Aufwands aus.)


Naja, diff kommt nahe ran.

z.B. diff -bwBE -U 0 file1 file2 | wc -l

-bwBE ignoriert alle Typen von Whitespace (ich habe bestimmt zu viel 
ignoriert oder so)

-U 0 - macht ein unified diff ohne Context-Zeilen

Sollte dieser Befehl jetzt eine Zahl ausgeben, die signifikant kleiner ist 
als "wc -l <file1", dann ist es sehr wahrscheinlich dass file2 nicht 
sonderlich originell ist... ;-)

Sollte die Zahl jedoch wesentlich größer sein, dann sind die Dateien 
mindestens neu sortiert worden.

Reicht Dir diese Aussage? Oder wolltest Du noch irgendwas sinnvolles mit dem 
Ergebnis machen?

> Mir fällt die git rename -Logik ein. Dazu finde ich aber weder Code noch
> Logik...

Siehe git sourcen? :-P


        Konrad

signature.asc
Description: This is a digitally signed message part.

_______________________________________________
Lug-dd maillist  -  [email protected]
https://ssl.schlittermann.de/mailman/listinfo/lug-dd

Re: Maß für Ähnlichkeit von Dateinhalten (Text)

Antwort per Email an