Guten Tag,
Am 30.11.2009 um 11:43 schrieb Karl Köckemann:
Bei 1 Million Zeilen, würden da die als fehlerhaft vermuteten Wörter
(wurden ein paar Sätze durchgegesehen, in denen sie stehen?) aufgrund
ihrer geringen Häufigkeiten bei statistischen Analysen im Ergebnis so
stark ins Gewicht fallen, dass sie tatsächlich aus der Datei
verschwinden müssten? Sind wir auf eine so hohe Präzision angewiesen,
dass sämtliche Rechtschreibfehler zuvor beseitigt werden müssten?
Vergiss Leipzig. Oder nicht?
Nein. Solange keine bessere Alternative besteht, lassen sich aus den
großen Corpora eine Menge Erkenntnisse gewinnen, die mit kleinen
Corpora nicht nennenswert anders zu erwarten sein werden. Auch sind
die
Häufigkeiten aus den großen Corpora zuverlässiger, selbst wenn darin
ein paar Tippfehler enthalten sind.
Für die Untersuchung von Buchstabennachbarschaften verwende ich
vorzugsweise die Rangliste der Universität Leipzig für die 10 000
häufigsten deutschen Wörter. Für die Fragen einer zweckmäßigen
Belegung würde vermutlich bereits die Liste der 1000 häufigsten Wörter
ausreichen. Bei häufig vorkommenden Buchstabenfolgen wird man
vermutlich zwischen einer Liste der 1000 und einer Liste der 10 000
häufigsten Wörter kaum einen Unterschied finden. Unterschiede findet
man allenfalls bei den Buchstabenfolgen, die selten gebrauchte
Buchstabe enthalten. Aber bei diesen Buchstaben gelten ohnehin andere
Gesichtspunkte.
Bei einer Belegung werden zuerst die häufig vorkommenden Buchstaben
auf griffgünstige Tastpunkte gelegt. Die Anordnung der selten
gebrauchten Buchstaben richtet sich daran anschließend nicht mehr nach
ihrer Häufigkeit, sondern nach den Tastpunkten, die dann noch frei
sind, und nach der "gefühlten" Logik ihrer Position, also nach dem
Zusammenhang von a/ä, o/ö, u/ü, s/ß oder z/ß, k/q usw., also nach
Beziehungen, die man sich leicht merken kann. Wenn ein Buchstabe mit
einem Präfix (also mit einer Tottaste) aufgerufen werden soll, dann
ist es vor allem wichtig, dass dieser Buchstabe und die Tottaste sich
möglichst leicht gemeinsam greifen lassen.
Zusammenfassend meine ich: die Wahl eines deutschen Corpus erscheint
mir unkritisch. Beachtliche Unterschiede ergeben sich erst dann, wenn
man Fremdsprachen einbezieht.
Heider