Hallo allerseits,

Ulf Bro ſchrieb am 29.11.2009 16:49 Uhr:
Eine sehr gute Idee. Sobald die Wortliste vorliegt, werde ich sie in meinem Auswerteprogramm übernehmen. Versprochen.

Vielen Dank, aber ich habe nichts fest versprochen …

Karl Köckemann ſchrieb am 29.11.2009 22:01 Uhr:
Den (vielleicht arg unterschätzt) hohen Aufwand des Strippens eines Wikipedia-Dumps traue ich mir nicht zu, obschon die Idee mir gut gefällt.

Wenigstens den nötigen Aufwand kann man recht gut abschätzen: Gemäß der Wikipedia-Seite über Dumps¹ bräuchten wir wohl die Datei dewiki-articles.xml.bz2:

This contains current versions of article content (Articles, templates, image descriptions, and primary meta-pages), and is the archive most mirror sites will probably want

Dummerweise kommt diese (bereits komprimierte!) Datei² auf stolze 1,6 GB.Ich habe mir mal als Vergleichsmaßstab die plattdeusche Wikipedia heruntergeladen; hier kommt die entsprechende Datei³ auf ›nur‹ auf 12,03 MB, und wächst entpackt auf 56,6 MB an (Faktor 4,705). Damit ergibt sich für den entpackten Schnapschuss der deutschen Wikipedia eine Größe von 7,5 GB. Dieser müsste komplett ausgelesen (und dabei die XML- wie Wiki-Syntax entfernt) werden; erst dann könnte man die {1,2,3}-Gramme auswerten. Isgesamt wäre das zwar eine ziemliche Rechenaufgabe für einen 08/15-PC, aber m. E. durchaus noch in Rahmen des Möglichen (die konkrete Rechendauer hängt natürlich auch entscheidend on einer effizienten Implementierung ab).

Die Textbasis wäre halt nochmal deutlich grösser als die Leipziger Variante, aber ob das für uns auch einen echten Mehrwert bringen würde, darf durchaus angezweifelt werden.

Rechtschreibfehler wird es in Wikipedia ebenfalls geben - wie überall.

Klar, aber die meisten Artikel in der Wikipedia sind vielfach gegengelesen bzw. korrigiert worden … wenigstens in der Theorie sollten deshalb nur im akzeptablen Maße Rechtschreibfehler auftreten.

Somit können aus Lexika zwar Wortlisten extrahiert werden, jedoch wird die Relevanz für den allgemeinen Gebrauch von daraus gewonnenen Worthäufigkeiten extrem variieren.

Das ist allerdings wahr, aber jede Textquelle hat ihre spezifischen Vor- wie Nachteile.


Viele Grüße,
Dennis-ſ


¹ http://de.wikipedia.org/wiki/Wikipedia:Download
² http://download.wikimedia.org/dewiki/latest/dewiki-latest-pages-articles.xml.bz2 (1,6 GB!) ³ http://download.wikimedia.org/ndswiki/latest/ndswiki-latest-pages-articles.xml.bz2

Antwort per Email an