> Gerade versuche ich den Leipziger Textkorpus von ein paar Fehlern und
> überrepräsentierten Kürzeln zu befreien, z. B. (dpa), (AFP), (Reuter).

Da hast du dir ja ein schönes Stück Arbeit aufgehalst.  Ich hätte noch
mehr davon: Die häufigsten Bigrammen für eine ungeshiftete gefolgt von
einer geshifteten Taste sind die Kombination Punkt gefolgt von einem
Großbuchstaben.  Das kommt von fehlenden Leerzeichen am Satzende oder in
Daten («24.Dezember»).

> Dennoch werden wir weitere Textkörper brauchen, da im Leipziger
> Textkorpus zwar auch Sätze aus ein paar Fachbüchern stehen,
> jedoch basiert er überwiegend aus Zeitungsartikeln.

Ja, die Sätze klingen oft sehr nach Kurzmeldung.  Ulfs Beobachtung, dass
Punkt gegenüber Komma zu oft auftritt, zeigt, dass das nicht nur eine
hypothetische Schwäche ist.

> Die Untersuchungen mit Bigrammen legen nahe, dass
> ein 300-Millionen-Zeichen-Textkörper bei weniger häufigen Bigrammen
> gerade genug Häufigkeiten liefert, damit anschließende Berechungen, um
> keine zu hohe Fehlerrate erwarten zu müssen. Wie das für Trigramme
> aussähe, damit habe ich mich bislang nicht befasst.

Das ist zum Glück kein Problem.  Zwar haben die Häufigkeiten seltener
Bigramme einen großen statistischen Fehler.  Weil sie selten sind
spielen sie aber in der Optimierung ohnehin kaum eine Rolle.  Mit dem
Leipziger 100k-Zeilen-Korpus bekomme ich dieselbe Tastatur wie mit
deinen Tabellen für den 3M-Zeilen-Korpus.

Andreas

Antwort per Email an