Am Sun, 29 Nov 2009 11:36:49 +0100
schrieb Ulf Bro <ulf....@web.de>:

> > Soeben fand ich das Verzeichnis, in dem die herunterladbaren
> > Textcorpora der Uni Leipzig stehen:
> > http://corpora.informatik.uni-leipzig.de/resources/flatfiles
> > 
> > Die genaue Bedeutung scheint unklar. Auf dieser Seite geht zumindest
> > die Bedeutung des Inhalts von de05_3M.zip hervor:
> > http://www.domain-scan.net/index.php?option=com_content&view=article&id=19

> Ich brauche für mein Programm eine Datei, die in jeder Zeile ein Wort
> hat, gefolgt von deren Häufigkeit. Das Wort soll kleingeschrieben sein
> und mit der (der inzwischen nicht mehr ganz so) neuen Rechtschreibung
> übereinstimmen.

In den Corpora der Uni-Leipzig ist jeweils eine Datei namens words.txt
enthalten, die die Wörter des betreffenden Corpus in der gewünschten
Weise enthält. In der Datei besteht jede Zeile aus Rangnummer (je
kleiner die Zahl, desto häufiger das Wort), das Wort und die absolute
Häufigkeit.
Statt nur Kleinbuchstaben zu verwenden, wäre es machbar (sofern
überhaupt sinnvoll), den Großbuchstaben Strafpunkte zu geben?

> 5. Schauen wir uns die Datei w3.txt mal an:
> 
> aaber   1
> aabiete 1
> aabrar  1
> aaby    1
> aabye   1
> aac     2
> aach    25
> aachen  801
> aachene 1
> aachener        339
> aachenerin      5
> aachenern       2
> aacheners       2
> aachens 22
> aacm    1
> aacsb   2
> aad     31
> aadabei 1
> aads    1
> aaen    1
> aaf     2
> aafach  1
> aafang  1
> …
> aafmüpfig       1
> …
> aagehn  1
> …
> aah     14
> …
> abadschiew      1
> abadschijew     1
> …
> abdrükke        1
> …
> eßgenuß 1
> …
> genuß   313
> genuss  392
> …
> nun     41429
> nunavut 7
> nunez   17
> nunmal  21
> nunmehr 1349
> nunmehrigen     6
> nunn    29
> nuno    10
> nünthel 40
> nuntiatur       8
> nuntius 27
> nuon    8
> [...]
> Die Datei w3.txt enthält etwa 1 Million Zeilen, darunter also jede
> Menge Rechtschreibfehler.

Aus welcher Datei (welchem Corpus) stammen diese Wörter?
Bei 1 Million Zeilen, würden da die als fehlerhaft vermuteten Wörter
(wurden ein paar Sätze durchgegesehen, in denen sie stehen?) aufgrund
ihrer geringen Häufigkeiten bei statistischen Analysen im Ergebnis so
stark ins Gewicht fallen, dass sie tatsächlich aus der Datei
verschwinden müssten? Sind wir auf eine so hohe Präzision angewiesen,
dass sämtliche Rechtschreibfehler zuvor beseitigt werden müssten?

> Vergiss Leipzig. Oder nicht?

Nein. Solange keine bessere Alternative besteht, lassen sich aus den
großen Corpora eine Menge Erkenntnisse gewinnen, die mit kleinen
Corpora nicht nennenswert anders zu erwarten sein werden. Auch sind die
Häufigkeiten aus den großen Corpora zuverlässiger, selbst wenn darin
ein paar Tippfehler enthalten sind.

Mit nettem Gruß
Karl



Antwort per Email an