Am Sun, 29 Nov 2009 11:36:49 +0100 schrieb Ulf Bro <ulf....@web.de>: > > Soeben fand ich das Verzeichnis, in dem die herunterladbaren > > Textcorpora der Uni Leipzig stehen: > > http://corpora.informatik.uni-leipzig.de/resources/flatfiles > > > > Die genaue Bedeutung scheint unklar. Auf dieser Seite geht zumindest > > die Bedeutung des Inhalts von de05_3M.zip hervor: > > http://www.domain-scan.net/index.php?option=com_content&view=article&id=19
> Ich brauche für mein Programm eine Datei, die in jeder Zeile ein Wort > hat, gefolgt von deren Häufigkeit. Das Wort soll kleingeschrieben sein > und mit der (der inzwischen nicht mehr ganz so) neuen Rechtschreibung > übereinstimmen. In den Corpora der Uni-Leipzig ist jeweils eine Datei namens words.txt enthalten, die die Wörter des betreffenden Corpus in der gewünschten Weise enthält. In der Datei besteht jede Zeile aus Rangnummer (je kleiner die Zahl, desto häufiger das Wort), das Wort und die absolute Häufigkeit. Statt nur Kleinbuchstaben zu verwenden, wäre es machbar (sofern überhaupt sinnvoll), den Großbuchstaben Strafpunkte zu geben? > 5. Schauen wir uns die Datei w3.txt mal an: > > aaber 1 > aabiete 1 > aabrar 1 > aaby 1 > aabye 1 > aac 2 > aach 25 > aachen 801 > aachene 1 > aachener 339 > aachenerin 5 > aachenern 2 > aacheners 2 > aachens 22 > aacm 1 > aacsb 2 > aad 31 > aadabei 1 > aads 1 > aaen 1 > aaf 2 > aafach 1 > aafang 1 > … > aafmüpfig 1 > … > aagehn 1 > … > aah 14 > … > abadschiew 1 > abadschijew 1 > … > abdrükke 1 > … > eßgenuß 1 > … > genuß 313 > genuss 392 > … > nun 41429 > nunavut 7 > nunez 17 > nunmal 21 > nunmehr 1349 > nunmehrigen 6 > nunn 29 > nuno 10 > nünthel 40 > nuntiatur 8 > nuntius 27 > nuon 8 > [...] > Die Datei w3.txt enthält etwa 1 Million Zeilen, darunter also jede > Menge Rechtschreibfehler. Aus welcher Datei (welchem Corpus) stammen diese Wörter? Bei 1 Million Zeilen, würden da die als fehlerhaft vermuteten Wörter (wurden ein paar Sätze durchgegesehen, in denen sie stehen?) aufgrund ihrer geringen Häufigkeiten bei statistischen Analysen im Ergebnis so stark ins Gewicht fallen, dass sie tatsächlich aus der Datei verschwinden müssten? Sind wir auf eine so hohe Präzision angewiesen, dass sämtliche Rechtschreibfehler zuvor beseitigt werden müssten? > Vergiss Leipzig. Oder nicht? Nein. Solange keine bessere Alternative besteht, lassen sich aus den großen Corpora eine Menge Erkenntnisse gewinnen, die mit kleinen Corpora nicht nennenswert anders zu erwarten sein werden. Auch sind die Häufigkeiten aus den großen Corpora zuverlässiger, selbst wenn darin ein paar Tippfehler enthalten sind. Mit nettem Gruß Karl