Am 16.12.2009 um 01:03 schrieb Pascal Hauck: > Am Mittwoch, 16. Dezember 2009 00:12:28 schrieb Karl Köckemann: >> Dort gibt es zwar eine umfangreiche Liste mit den häufigsten Wörtern, >> aber leider nicht mit absoluten oder relativen Häufigkeitswerten, >> sondern nur mit Angaben zu Häufigkeitsklassen. > > Das ist bei der Leipziger Wortliste ebenso. Ich habe für meine Statistik > damals die relative Häufigkeit nach dem Zipfschen Gesetz versucht zu > rekonstruieren, wobei das insbesondere für die häufigsten Buchstaben nur > eingeschränkt funktioniert. Dennoch sind die Ergebnisse nicht abwegig. > > Heißt: vielleicht könnte man ähnliches mit dieser Quelle versuchen, auch wenn > klar ist, dass eine direkte Angabe der relativen Häufigkeit sinnvoller, > besser > und einfacher ist.
Um mich über Häufigkeiten zu informieren habe ich früher mit dem Leipziger Korpus gearbeitet. Neuerdings verwende ich den Mannheimer Korpus, der ebenfalls Häufigkeitsklassen angibt. Eine Häufigkeitsklasse gibt die Häufigkeit an mit der Toleranz von fünfzig Prozent. Diese Genauigkeit reicht für Sprachstatistiken völlig aus. Ein Beispiel: Das Wort "Material" kommt in einem sehr großen Korpus unter 1 Mio. Wörtern 80 mal vor. Diese Angabe bezieht sich aber nur auf diesen Korpus. Manche Menschen, die im Jahr 1 Mio. Wörter schreiben (also rund 5000 Wörter am Arbeitstag), verwenden dieses Wort keinmal im Jahr, und manche verwenden es stündlich. Mit der Angabe 80 je 1 Mio. lässt sich deshalb wenig anfangen. Nach meiner Erfahrung genügt es, bei der Buchstabenstatistik für eine Tastenbelegung einen reduzierten Korpus zu verwenden, der nur einige tausend allgemeine Wörter verwendet, die in jedem üblichen Text vorkommen, weil sie zur Satzstruktur gehören und im Übrigen nur wenig Information enthalten. Aus meiner Sicht lohnt sich die Frage, ob man zuerst eine linguistische Auswahl macht, bevor man mit einer statistischen Auswertung beginnt. Mit adventlichen Grüßen Wolf-Heider Rein
