> Gerade versuche ich den Leipziger Textkorpus von ein paar Fehlern und > überrepräsentierten Kürzeln zu befreien, z. B. (dpa), (AFP), (Reuter).
Da hast du dir ja ein schönes Stück Arbeit aufgehalst. Ich hätte noch mehr davon: Die häufigsten Bigrammen für eine ungeshiftete gefolgt von einer geshifteten Taste sind die Kombination Punkt gefolgt von einem Großbuchstaben. Das kommt von fehlenden Leerzeichen am Satzende oder in Daten («24.Dezember»). > Dennoch werden wir weitere Textkörper brauchen, da im Leipziger > Textkorpus zwar auch Sätze aus ein paar Fachbüchern stehen, > jedoch basiert er überwiegend aus Zeitungsartikeln. Ja, die Sätze klingen oft sehr nach Kurzmeldung. Ulfs Beobachtung, dass Punkt gegenüber Komma zu oft auftritt, zeigt, dass das nicht nur eine hypothetische Schwäche ist. > Die Untersuchungen mit Bigrammen legen nahe, dass > ein 300-Millionen-Zeichen-Textkörper bei weniger häufigen Bigrammen > gerade genug Häufigkeiten liefert, damit anschließende Berechungen, um > keine zu hohe Fehlerrate erwarten zu müssen. Wie das für Trigramme > aussähe, damit habe ich mich bislang nicht befasst. Das ist zum Glück kein Problem. Zwar haben die Häufigkeiten seltener Bigramme einen großen statistischen Fehler. Weil sie selten sind spielen sie aber in der Optimierung ohnehin kaum eine Rolle. Mit dem Leipziger 100k-Zeilen-Korpus bekomme ich dieselbe Tastatur wie mit deinen Tabellen für den 3M-Zeilen-Korpus. Andreas
