Hallo Ulf,

am Mon, 28 Dec 2009 22:24:38 schrieb Ulf:

> Irgendwie kann es ja nicht sein, dass wir aus einem identischen
> Textkorpus unterschiedliche Bigramme ziehen. (Ich habe allerdings
> alle Bigramme in Kleinbuchstaben gezogen, und Komma und Punkt als
> Buchstaben behandelt, Karl hatte das etwas anders gehandhabt, ich
> glaube, das erklärt zum Teil den Unterschied.

Eine Beobachtung fiel mir seinerzeit auf, von der ich nicht weiß, ob
sie noch aktuell ist.

Einmal hattest Du Linux-Befehle beschrieben, mit denen sich eine
Bigrammliste erstellen läßt (vielen Dank, sie waren mir hilfreich).
Danach entstanden aus dem Wort "Beispieltext" die Bigramme:
Be is pi el te xt

Bei der von mir verwendeten Variante entstehen aus dem Wort
"Beispieltext" die Bigramme:
Be ei is sp pi ie el lt te ex xt

Bei einem großen Textkörper fällt der Unterschied nicht ins Gewicht, da
die Bigramme sich oft genug wiederholen.

Neben der Zusammenfassung von Groß- und Kleinbuchstaben könnte die
Beobachtung auf eine weitere Ursache für unterschiedliche Bigrammlisten
hinweisen.

Mit netten Grüßen
Karl



Antwort per Email an