Es wird in Frage gestellt ob Texte nun Repräsentativ sind oder nicht. Hierbei wird argumentiert, dass große Texte oft auf irgendeine spezielle Textgattung zielen (z.b. Lexika, Zeitungen) und für sich deswegen die Statistik verfälschen würden. Gesucht wird also eine Textbasis, die alle Textgattungen, ggf. sogar verschiedene Sprachen (Deutsch, Englisch, Programmier) abdeckt.

Meine Feststellung 1: Selbst wenn wir einen nach diesen Regeln repräsentativen Text finden, ist dieser wieder nicht repräsentativ bezogen auf die Tastendrücke. Denn: Was wir sehen ist das Endergebnis was der Autor für richtig hält. Der Autor hat beim Schreiben jedoch Fehler gemacht. Rechtschreibfehler hat er evtl. berichtigt und beim schreiben von Sätzen sich den Satz vll. nochmal anders überlegt und anders geschrieben. So habe AUCH ICH in den letzten Sätzen, seit "Meine Feststellung 1" mehrfach Rechtschreibfehler berichtigt oder Wörter gelöscht, weil ich lieber ein anderes Wort hinschreiben wollte. All diese gedrückten Zeichen (Und vorallem n-Gramme) seht ihr nun nichtmehr und werden in keiner Statistik auftauchen.

Meine Feststellung 2: Die wirklich eingetippten Zeichen können wir nur feststellen, indem wir (möglichst allen) Menschen einen Keylogger auf dem PC installieren und alle Zeichen mitloggen, die eingegeben werden.

Meine Feststellung 3: Eine Statistik ist eine Annäherung an die Wirklichkeit, aber niemals die Wirklichkeit. Dies muss man akzeptieren um weiterarbeiten zu können! Statistiken, die ähnliches Untersuchen werden zu ähnlichen Ergebnissen kommen. So wird "e" in einem Lexika vll. der häufigste Buchstabe sein, so wird er in einer Zeitung nicht plötzlich an letzter Stelle stehen.

Ausgehend davon habe ich mir überlegt, dass man verschiedene Statistiken zusammenrechnen könnte. So könnte man Statistiken zu {Deutschen, Englischen, Programmiersprachen, ...} zu den Textgattungen {Lexika, Diskussion, E-Mails, ...} machen und diese dann je nach Lust und Laune Prozentual zusammenrechnen, wenn die Statistiken neben den absoluten Buchstabenhäufigkeiten auch die Prozentualen enthalten:

Folgende Zahlen sind Fantasiezahlen:
In 100 Zeichen deutschem Text gibt es 20 "e". Das sind 20%
In 100 Zeichen englischem Text gibt es 10 "e". Das sind 10%
Im gemeinsamen Text sind in 200 Zeichen somit 30 "e", das sind 15%. Hierbei wird also angenommen, dass englisch und deutsch gleich viel geschrieben wird.
Nehmen wir an, dass deutsch 80% geschrieben wird und englisch 20%.
Deutsch: 100 Zeichen * 0,80 = 80 Zeichen bzw. 20 "e" * 0,80 = 16 "e".
Englisch: 100 Zeichen * 0,20 = 20 Zeichen bzw. 10 "e" * 0,20 = 2 "e".
Im gemeinsamen Text sind dann 100 Zeichen bzw. 18 "e", was 18% entspricht.
Natürlich kommt man zu diesem Ergebnis auch einfacher:
20% * 0,8 + 10% * 0,2 = 18%

Fazit: Wir können verschiedene Statistiken machen zu verschiedenen Textgattungen verschiedener Sprachen und diese dann im nachhinein so verrechnen wie wir möchten.


Siehe auch "Re: [Neo] Wikipedia-Korpus selbstgemacht" vom 17.04.2011 um 23:48

Mit freundlichen Grüßen

Michael Gattinger


Antwort per Email an