[Neo] Wie groß muss ein Korpus sein?

wettstein509 Mon, 28 Dec 2009 11:26:16 -0800

Damit die Beurteilung einer Tastatur nicht zu sehr durch zufällige
Variation der Zeichen- und Bigrammhäufigkeiten beeinflusst wird, muss
der Korpus groß genug sein.  Die Frage ist, wie groß.


Die Beurteilung einer Tastatur wird durch eine Zahl ausgedrückt.  Man
kann sich überlegen, dass für einen sehr große Korpora der relative
statistische Fehler dieser Zahl reziprok zur Wurzel der Größe eines
Korpus ist.  Dieses qualitative Verhalten sollte nicht vom
Bewertungsschema und der gegeben Tastatur abhängen; der Vorfaktor kann
das aber durchaus.

Um den Vorfaktor zu bekommen habe ich zwei Tastaturen, eine (gemäß
meinen aktuellen Kriterien) besonders gute und eine besonders schlechte,
mit verschiedenen Korpora bewertet und aus den Einzelergebnissen den
relativen Fehler (Standardabweichung durch Mittelwert) bestimmt.  Die
Korpora habe ich aus dem Leipziger 1M-Korpus gewonnen, indem ich diesen
einmal in 1000 Files zu je 1000 Zeilen und einmal in 100 Files zu je
10000 Zeilen aufgespaltet habe.  Resultat:

 Mittel rel. Fehler  Files Zeilen  Tastatur
--------------------------------------------
236.353 0.00140541  100    10000  optimiert
236.357 0.00394096  1000    1000  optimiert

984.445 0.000574423 100    10000  pessimiert
984.446 0.0018825   1000    1000  pessimiert

So ein 10000-Zeilen-File hat etwa 1.1 MByte, und der relative
statistische Fehler der Bewertung ist im Promillebereich.  Wenn wir uns
als Ziel setzen, den statistischen Fehler unter einem Promille zu halten
(die Willkür im Bewertungschema wird viel größer sein als das), ist ein
Korpus von 3 MByte also groß genug.

Andreas

[Neo] Wie groß muss ein Korpus sein?

Antwort per Email an