Es wird in Frage gestellt ob Texte nun Repräsentativ sind oder nicht.
Hierbei wird argumentiert, dass große Texte oft auf irgendeine spezielle
Textgattung zielen (z.b. Lexika, Zeitungen) und für sich deswegen die
Statistik verfälschen würden. Gesucht wird also eine Textbasis, die alle
Textgattungen, ggf. sogar verschiedene Sprachen (Deutsch, Englisch,
Programmier) abdeckt.
Meine Feststellung 1: Selbst wenn wir einen nach diesen Regeln
repräsentativen Text finden, ist dieser wieder nicht repräsentativ
bezogen auf die Tastendrücke. Denn: Was wir sehen ist das Endergebnis
was der Autor für richtig hält. Der Autor hat beim Schreiben jedoch
Fehler gemacht. Rechtschreibfehler hat er evtl. berichtigt und beim
schreiben von Sätzen sich den Satz vll. nochmal anders überlegt und
anders geschrieben. So habe AUCH ICH in den letzten Sätzen, seit "Meine
Feststellung 1" mehrfach Rechtschreibfehler berichtigt oder Wörter
gelöscht, weil ich lieber ein anderes Wort hinschreiben wollte. All
diese gedrückten Zeichen (Und vorallem n-Gramme) seht ihr nun nichtmehr
und werden in keiner Statistik auftauchen.
Meine Feststellung 2: Die wirklich eingetippten Zeichen können wir nur
feststellen, indem wir (möglichst allen) Menschen einen Keylogger auf
dem PC installieren und alle Zeichen mitloggen, die eingegeben werden.
Meine Feststellung 3: Eine Statistik ist eine Annäherung an die
Wirklichkeit, aber niemals die Wirklichkeit. Dies muss man akzeptieren
um weiterarbeiten zu können! Statistiken, die ähnliches Untersuchen
werden zu ähnlichen Ergebnissen kommen. So wird "e" in einem Lexika vll.
der häufigste Buchstabe sein, so wird er in einer Zeitung nicht
plötzlich an letzter Stelle stehen.
Ausgehend davon habe ich mir überlegt, dass man verschiedene Statistiken
zusammenrechnen könnte. So könnte man Statistiken zu {Deutschen,
Englischen, Programmiersprachen, ...} zu den Textgattungen {Lexika,
Diskussion, E-Mails, ...} machen und diese dann je nach Lust und Laune
Prozentual zusammenrechnen, wenn die Statistiken neben den absoluten
Buchstabenhäufigkeiten auch die Prozentualen enthalten:
Folgende Zahlen sind Fantasiezahlen:
In 100 Zeichen deutschem Text gibt es 20 "e". Das sind 20%
In 100 Zeichen englischem Text gibt es 10 "e". Das sind 10%
Im gemeinsamen Text sind in 200 Zeichen somit 30 "e", das sind 15%.
Hierbei wird also angenommen, dass englisch und deutsch gleich viel
geschrieben wird.
Nehmen wir an, dass deutsch 80% geschrieben wird und englisch 20%.
Deutsch: 100 Zeichen * 0,80 = 80 Zeichen bzw. 20 "e" * 0,80 = 16 "e".
Englisch: 100 Zeichen * 0,20 = 20 Zeichen bzw. 10 "e" * 0,20 = 2 "e".
Im gemeinsamen Text sind dann 100 Zeichen bzw. 18 "e", was 18% entspricht.
Natürlich kommt man zu diesem Ergebnis auch einfacher:
20% * 0,8 + 10% * 0,2 = 18%
Fazit: Wir können verschiedene Statistiken machen zu verschiedenen
Textgattungen verschiedener Sprachen und diese dann im nachhinein so
verrechnen wie wir möchten.
Siehe auch "Re: [Neo] Wikipedia-Korpus selbstgemacht" vom 17.04.2011 um
23:48
Mit freundlichen Grüßen
Michael Gattinger