Damit die Beurteilung einer Tastatur nicht zu sehr durch zufällige Variation der Zeichen- und Bigrammhäufigkeiten beeinflusst wird, muss der Korpus groß genug sein. Die Frage ist, wie groß.
Die Beurteilung einer Tastatur wird durch eine Zahl ausgedrückt. Man kann sich überlegen, dass für einen sehr große Korpora der relative statistische Fehler dieser Zahl reziprok zur Wurzel der Größe eines Korpus ist. Dieses qualitative Verhalten sollte nicht vom Bewertungsschema und der gegeben Tastatur abhängen; der Vorfaktor kann das aber durchaus. Um den Vorfaktor zu bekommen habe ich zwei Tastaturen, eine (gemäß meinen aktuellen Kriterien) besonders gute und eine besonders schlechte, mit verschiedenen Korpora bewertet und aus den Einzelergebnissen den relativen Fehler (Standardabweichung durch Mittelwert) bestimmt. Die Korpora habe ich aus dem Leipziger 1M-Korpus gewonnen, indem ich diesen einmal in 1000 Files zu je 1000 Zeilen und einmal in 100 Files zu je 10000 Zeilen aufgespaltet habe. Resultat: Mittel rel. Fehler Files Zeilen Tastatur -------------------------------------------- 236.353 0.00140541 100 10000 optimiert 236.357 0.00394096 1000 1000 optimiert 984.445 0.000574423 100 10000 pessimiert 984.446 0.0018825 1000 1000 pessimiert So ein 10000-Zeilen-File hat etwa 1.1 MByte, und der relative statistische Fehler der Bewertung ist im Promillebereich. Wenn wir uns als Ziel setzen, den statistischen Fehler unter einem Promille zu halten (die Willkür im Bewertungschema wird viel größer sein als das), ist ein Korpus von 3 MByte also groß genug. Andreas