Am 16.12.2009 um 01:03 schrieb Pascal Hauck:

> Am Mittwoch, 16. Dezember 2009 00:12:28 schrieb Karl Köckemann:
>> Dort gibt es zwar eine umfangreiche Liste mit den häufigsten Wörtern,
>> aber leider nicht mit absoluten oder relativen Häufigkeitswerten,
>> sondern nur mit Angaben zu Häufigkeitsklassen.
> 
> Das ist bei der Leipziger Wortliste ebenso. Ich habe für meine Statistik 
> damals die relative Häufigkeit nach dem Zipfschen Gesetz versucht zu 
> rekonstruieren, wobei das insbesondere für die häufigsten Buchstaben nur 
> eingeschränkt funktioniert. Dennoch sind die Ergebnisse nicht abwegig.
> 
> Heißt: vielleicht könnte man ähnliches mit dieser Quelle versuchen, auch wenn 
> klar ist, dass eine direkte Angabe der relativen Häufigkeit sinnvoller, 
> besser 
> und einfacher ist.

Um mich über Häufigkeiten zu informieren habe ich früher mit dem Leipziger 
Korpus gearbeitet. Neuerdings verwende ich den Mannheimer Korpus, der ebenfalls 
Häufigkeitsklassen angibt. 

Eine Häufigkeitsklasse gibt die Häufigkeit an mit der Toleranz von fünfzig 
Prozent. Diese Genauigkeit reicht für Sprachstatistiken völlig aus. Ein 
Beispiel: Das Wort "Material" kommt in einem sehr großen Korpus unter 1 Mio. 
Wörtern 80 mal vor. Diese Angabe bezieht sich aber nur auf diesen Korpus. 
Manche Menschen, die im Jahr 1 Mio. Wörter schreiben (also rund 5000 Wörter am 
Arbeitstag), verwenden dieses Wort keinmal im Jahr, und manche verwenden es 
stündlich.  Mit der Angabe 80 je 1 Mio. lässt sich deshalb wenig anfangen. 

Nach meiner Erfahrung genügt es, bei der Buchstabenstatistik für eine 
Tastenbelegung einen reduzierten Korpus zu verwenden, der nur einige tausend 
allgemeine Wörter verwendet, die in jedem üblichen Text vorkommen, weil sie zur 
Satzstruktur gehören und im Übrigen nur wenig Information enthalten.

Aus meiner Sicht lohnt sich die Frage, ob man zuerst eine linguistische Auswahl 
macht, bevor man mit einer statistischen Auswertung beginnt.
Mit adventlichen Grüßen
Wolf-Heider Rein



Antwort per Email an