Re: [Neo] Textcorpora der Uni Leipzig (was: Textk örper für Neo3)

Wolf-Heider Rein Mon, 30 Nov 2009 04:24:22 -0800

Guten Tag,

Am 30.11.2009 um 11:43 schrieb Karl Köckemann:

Bei 1 Million Zeilen, würden da die als fehlerhaft vermuteten Wörter
(wurden ein paar Sätze durchgegesehen, in denen sie stehen?) aufgrund
ihrer geringen Häufigkeiten bei statistischen Analysen im Ergebnis so
stark ins Gewicht fallen, dass sie tatsächlich aus der Datei
verschwinden müssten? Sind wir auf eine so hohe Präzision angewiesen,
dass sämtliche Rechtschreibfehler zuvor beseitigt werden müssten?

Vergiss Leipzig. Oder nicht?


Nein. Solange keine bessere Alternative besteht, lassen sich aus den
großen Corpora eine Menge Erkenntnisse gewinnen, die mit kleinen

Corpora nicht nennenswert anders zu erwarten sein werden. Auch sinddie

Häufigkeiten aus den großen Corpora zuverlässiger, selbst wenn darin
ein paar Tippfehler enthalten sind.

Für die Untersuchung von Buchstabennachbarschaften verwende ichvorzugsweise die Rangliste der Universität Leipzig für die 10 000häufigsten deutschen Wörter. Für die Fragen einer zweckmäßigenBelegung würde vermutlich bereits die Liste der 1000 häufigsten Wörterausreichen. Bei häufig vorkommenden Buchstabenfolgen wird manvermutlich zwischen einer Liste der 1000 und einer Liste der 10 000häufigsten Wörter kaum einen Unterschied finden. Unterschiede findetman allenfalls bei den Buchstabenfolgen, die selten gebrauchteBuchstabe enthalten. Aber bei diesen Buchstaben gelten ohnehin andereGesichtspunkte.

Bei einer Belegung werden zuerst die häufig vorkommenden Buchstabenauf griffgünstige Tastpunkte gelegt. Die Anordnung der seltengebrauchten Buchstaben richtet sich daran anschließend nicht mehr nachihrer Häufigkeit, sondern nach den Tastpunkten, die dann noch freisind, und nach der "gefühlten" Logik ihrer Position, also nach demZusammenhang von a/ä, o/ö, u/ü, s/ß oder z/ß, k/q usw., also nachBeziehungen, die man sich leicht merken kann. Wenn ein Buchstabe miteinem Präfix (also mit einer Tottaste) aufgerufen werden soll, dannist es vor allem wichtig, dass dieser Buchstabe und die Tottaste sichmöglichst leicht gemeinsam greifen lassen.

Zusammenfassend meine ich: die Wahl eines deutschen Corpus erscheintmir unkritisch. Beachtliche Unterschiede ergeben sich erst dann, wennman Fremdsprachen einbezieht.


Heider

Re: [Neo] Textcorpora der Uni Leipzig (was: Textk örper für Neo3)

Antwort per Email an