Re: [Neo] Kommentar zur Repräsentativität von Texten

2011-04-17 Diskussionsfäden Arne Babenhauserheide
On Sunday 17 April 2011 23:48:28 Michael Gattinger wrote:
> Fazit: Wir können verschiedene Statistiken machen zu verschiedenen
> Textgattungen verschiedener Sprachen und diese dann im nachhinein so
> verrechnen wie wir möchten.

Würde ich so unterschreiben.

Dann haben wir eine Grundlage, mit der wir gemeinsam über den effektiven
endgültigen Korpus entscheiden können (also über die nGramme, die am Ende der
Optimierer bekommt).

Liebe Grüße,
Arne
--
Konstruktive Kritik:

- http://draketo.de/licht/krude-ideen/konstruktive-kritik



signature.asc
Description: This is a digitally signed message part.


[Neo] Kommentar zur Repräsentativität von Texten

2011-04-17 Diskussionsfäden Michael Gattinger
Es wird in Frage gestellt ob Texte nun Repräsentativ sind oder nicht. 
Hierbei wird argumentiert, dass große Texte oft auf irgendeine spezielle 
Textgattung zielen (z.b. Lexika, Zeitungen) und für sich deswegen die 
Statistik verfälschen würden. Gesucht wird also eine Textbasis, die alle 
Textgattungen, ggf. sogar verschiedene Sprachen (Deutsch, Englisch, 
Programmier) abdeckt.


Meine Feststellung 1: Selbst wenn wir einen nach diesen Regeln 
repräsentativen Text finden, ist dieser wieder nicht repräsentativ 
bezogen auf die Tastendrücke. Denn: Was wir sehen ist das Endergebnis 
was der Autor für richtig hält. Der Autor hat beim Schreiben jedoch 
Fehler gemacht. Rechtschreibfehler hat er evtl. berichtigt und beim 
schreiben von Sätzen sich den Satz vll. nochmal anders überlegt und 
anders geschrieben. So habe AUCH ICH in den letzten Sätzen, seit "Meine 
Feststellung 1" mehrfach Rechtschreibfehler berichtigt oder Wörter 
gelöscht, weil ich lieber ein anderes Wort hinschreiben wollte. All 
diese gedrückten Zeichen (Und vorallem n-Gramme) seht ihr nun nichtmehr 
und werden in keiner Statistik auftauchen.


Meine Feststellung 2: Die wirklich eingetippten Zeichen können wir nur 
feststellen, indem wir (möglichst allen) Menschen einen Keylogger auf 
dem PC installieren und alle Zeichen mitloggen, die eingegeben werden.


Meine Feststellung 3: Eine Statistik ist eine Annäherung an die 
Wirklichkeit, aber niemals die Wirklichkeit. Dies muss man akzeptieren 
um weiterarbeiten zu können! Statistiken, die ähnliches Untersuchen 
werden zu ähnlichen Ergebnissen kommen. So wird "e" in einem Lexika vll. 
der häufigste Buchstabe sein, so wird er in einer Zeitung nicht 
plötzlich an letzter Stelle stehen.


Ausgehend davon habe ich mir überlegt, dass man verschiedene Statistiken 
zusammenrechnen könnte. So könnte man Statistiken zu {Deutschen, 
Englischen, Programmiersprachen, ...} zu den Textgattungen {Lexika, 
Diskussion, E-Mails, ...} machen und diese dann je nach Lust und Laune 
Prozentual zusammenrechnen, wenn die Statistiken neben den absoluten 
Buchstabenhäufigkeiten auch die Prozentualen enthalten:


Folgende Zahlen sind Fantasiezahlen:
In 100 Zeichen deutschem Text gibt es 20 "e". Das sind 20%
In 100 Zeichen englischem Text gibt es 10 "e". Das sind 10%
Im gemeinsamen Text sind in 200 Zeichen somit 30 "e", das sind 15%. 
Hierbei wird also angenommen, dass englisch und deutsch gleich viel 
geschrieben wird.

Nehmen wir an, dass deutsch 80% geschrieben wird und englisch 20%.
Deutsch: 100 Zeichen * 0,80 = 80 Zeichen bzw. 20 "e" * 0,80 = 16 "e".
Englisch: 100 Zeichen * 0,20 = 20 Zeichen bzw. 10 "e" * 0,20 = 2 "e".
Im gemeinsamen Text sind dann 100 Zeichen bzw. 18 "e", was 18% entspricht.
Natürlich kommt man zu diesem Ergebnis auch einfacher:
20% * 0,8 + 10% * 0,2 = 18%

Fazit: Wir können verschiedene Statistiken machen zu verschiedenen 
Textgattungen verschiedener Sprachen und diese dann im nachhinein so 
verrechnen wie wir möchten.



Siehe auch "Re: [Neo] Wikipedia-Korpus selbstgemacht" vom 17.04.2011 um 
23:48


Mit freundlichen Grüßen

Michael Gattinger