Am Mon, 28 Dec 2009 20:26:06 +0100
schrieb wettstein...@solnet.ch:

> Damit die Beurteilung einer Tastatur nicht zu sehr durch zufällige
> Variation der Zeichen- und Bigrammhäufigkeiten beeinflusst wird, muss
> der Korpus groß genug sein.  Die Frage ist, wie groß.

Je nachdem, welche Informationen aus dem Textkörper geholt werden
sollen, kann ein größerer Textkörper erforderlich sein.

Interessant könnte sein, einen Textkörper in einer Matrix abzubilden,
die die Wahrscheinlichkeiten enthält, mit der ein Zeichen auf ein
anderes folgt (bzw. ihm voraus geht). Zum Erzeugen solch einer Matrix
(z. B. anhand einer Trigrammliste nach dem mittleren Zeichen sortiert)
erscheint mir tatsächlich ein recht großer Textkörper erforderlich,
wenn der Fehler im relevanten Bereich nicht zu hoch werden soll.

Ich vermute einen Fehler von 2 % im relevanten Bereich beim
3-Millionen-Sätze-Textkorpus, bin mir aber unsicher.
Kann man anhand der Fehlerbetrachtung für Bigramme auch auf eine für
Trigramme schließen?

Mit schönen Grüßen
Karl



Antwort per Email an