Guten Tag,

Am 30.11.2009 um 11:43 schrieb Karl Köckemann:

Bei 1 Million Zeilen, würden da die als fehlerhaft vermuteten Wörter
(wurden ein paar Sätze durchgegesehen, in denen sie stehen?) aufgrund
ihrer geringen Häufigkeiten bei statistischen Analysen im Ergebnis so
stark ins Gewicht fallen, dass sie tatsächlich aus der Datei
verschwinden müssten? Sind wir auf eine so hohe Präzision angewiesen,
dass sämtliche Rechtschreibfehler zuvor beseitigt werden müssten?

Vergiss Leipzig. Oder nicht?

Nein. Solange keine bessere Alternative besteht, lassen sich aus den
großen Corpora eine Menge Erkenntnisse gewinnen, die mit kleinen
Corpora nicht nennenswert anders zu erwarten sein werden. Auch sind die
Häufigkeiten aus den großen Corpora zuverlässiger, selbst wenn darin
ein paar Tippfehler enthalten sind.

Für die Untersuchung von Buchstabennachbarschaften verwende ich vorzugsweise die Rangliste der Universität Leipzig für die 10 000 häufigsten deutschen Wörter. Für die Fragen einer zweckmäßigen Belegung würde vermutlich bereits die Liste der 1000 häufigsten Wörter ausreichen. Bei häufig vorkommenden Buchstabenfolgen wird man vermutlich zwischen einer Liste der 1000 und einer Liste der 10 000 häufigsten Wörter kaum einen Unterschied finden. Unterschiede findet man allenfalls bei den Buchstabenfolgen, die selten gebrauchte Buchstabe enthalten. Aber bei diesen Buchstaben gelten ohnehin andere Gesichtspunkte.

Bei einer Belegung werden zuerst die häufig vorkommenden Buchstaben auf griffgünstige Tastpunkte gelegt. Die Anordnung der selten gebrauchten Buchstaben richtet sich daran anschließend nicht mehr nach ihrer Häufigkeit, sondern nach den Tastpunkten, die dann noch frei sind, und nach der "gefühlten" Logik ihrer Position, also nach dem Zusammenhang von a/ä, o/ö, u/ü, s/ß oder z/ß, k/q usw., also nach Beziehungen, die man sich leicht merken kann. Wenn ein Buchstabe mit einem Präfix (also mit einer Tottaste) aufgerufen werden soll, dann ist es vor allem wichtig, dass dieser Buchstabe und die Tottaste sich möglichst leicht gemeinsam greifen lassen.

Zusammenfassend meine ich: die Wahl eines deutschen Corpus erscheint mir unkritisch. Beachtliche Unterschiede ergeben sich erst dann, wenn man Fremdsprachen einbezieht.

Heider





Antwort per Email an