Hallo Ulf, am Mon, 28 Dec 2009 22:24:38 schrieb Ulf:
> Irgendwie kann es ja nicht sein, dass wir aus einem identischen > Textkorpus unterschiedliche Bigramme ziehen. (Ich habe allerdings > alle Bigramme in Kleinbuchstaben gezogen, und Komma und Punkt als > Buchstaben behandelt, Karl hatte das etwas anders gehandhabt, ich > glaube, das erklärt zum Teil den Unterschied. Eine Beobachtung fiel mir seinerzeit auf, von der ich nicht weiß, ob sie noch aktuell ist. Einmal hattest Du Linux-Befehle beschrieben, mit denen sich eine Bigrammliste erstellen läßt (vielen Dank, sie waren mir hilfreich). Danach entstanden aus dem Wort "Beispieltext" die Bigramme: Be is pi el te xt Bei der von mir verwendeten Variante entstehen aus dem Wort "Beispieltext" die Bigramme: Be ei is sp pi ie el lt te ex xt Bei einem großen Textkörper fällt der Unterschied nicht ins Gewicht, da die Bigramme sich oft genug wiederholen. Neben der Zusammenfassung von Groß- und Kleinbuchstaben könnte die Beobachtung auf eine weitere Ursache für unterschiedliche Bigrammlisten hinweisen. Mit netten Grüßen Karl
