Hallo,

Am Sun, 13 Dec 2009 15:23:16 +0100
schrieb wettstein...@solnet.ch:

> Ich habe den Optimierer so erweitert, dass er Shift berücksichtigen
> kann.  [...]  Für den Vergleich habe ich den Leipziger Textkorpus
> verwendet (genauer gesagt die Tabellen «1gramme.txt» und
> «2gramme.txt» die Karl daraus erzeugt hat).

Gerade versuche ich den Leipziger Textkorpus von ein paar Fehlern und
überrepräsentierten Kürzeln zu befreien, z. B. (dpa), (AFP), (Reuter).

Leider sind viele Städtenamen komplett in Großbuchstaben geschrieben
(FRANKFURT, BERLIN, etc.), wodurch die Häufigkeiten der Großbuchstaben
ein wenig verzerrt sein könnten. Wie das in dem Korpus umfassend behoben
werden kann, ist mir noch nicht klar.

Unter den 80 % der häufigsten Wörter sollen die der alten
Rechtschreibung unterliegenden zur Neuen Rechtschreibung übertragen
werden. Auf s und insbesondere auf ß wird sich das auswirken.

Zu dem auf den Leipziger Textkorpus basierenden bereinigten Textkörper
sollen neue Listen mit Bigrammen und Zeichenhäufigkeiten aufgestellt
werden.

Dennoch werden wir weitere Textkörper brauchen, da im Leipziger
Textkorpus zwar auch Sätze aus ein paar Fachbüchern stehen,
jedoch basiert er überwiegend aus Zeitungsartikeln.
Der Leipziger Textkorpus enthält übermäßig viele Personen- und
Ortsnamen, die von den meisten Tastschreibern höchst selten geschrieben
werden, sich aber vermutlich unerwünscht auf die Bigrammliste auswirken.
Ist abschätzbar, ob ein auf Wikipedia basierender Textkörper ebenfalls
zuviele Namen enthielte?
Angenehm wäre ein umfangreicher deutschsprachiger Textkörper in Neuer
Rechtschreibung ohne Personennamen bzw. geografische Namen (einer der
vielen Korpora des IDS Mannheim wäre reichlich teuer).

Die Untersuchungen mit Bigrammen legen nahe, dass
ein 300-Millionen-Zeichen-Textkörper bei weniger häufigen Bigrammen
gerade genug Häufigkeiten liefert, damit anschließende Berechungen, um
keine zu hohe Fehlerrate erwarten zu müssen. Wie das für Trigramme
aussähe, damit habe ich mich bislang nicht befasst.

Mit netten Grüßen
Karl



Antwort per Email an