Hallo allerseits,
Ulf Bro ſchrieb am 29.11.2009 16:49 Uhr:
Eine sehr gute Idee. Sobald die Wortliste vorliegt, werde ich sie in
meinem Auswerteprogramm übernehmen. Versprochen.
Vielen Dank, aber ich habe nichts fest versprochen …
Karl Köckemann ſchrieb am 29.11.2009 22:01 Uhr:
Den (vielleicht arg unterschätzt) hohen Aufwand des Strippens eines
Wikipedia-Dumps traue ich mir nicht zu, obschon die Idee mir gut gefällt.
Wenigstens den nötigen Aufwand kann man recht gut abschätzen: Gemäß der
Wikipedia-Seite über Dumps¹ bräuchten wir wohl die Datei
dewiki-articles.xml.bz2:
This contains current versions of article content (Articles,
templates, image descriptions, and primary meta-pages), and is the
archive most mirror sites will probably want
Dummerweise kommt diese (bereits komprimierte!) Datei² auf stolze 1,6
GB.Ich habe mir mal als Vergleichsmaßstab die plattdeusche Wikipedia
heruntergeladen; hier kommt die entsprechende Datei³ auf ›nur‹ auf
12,03 MB, und wächst entpackt auf 56,6 MB an (Faktor 4,705). Damit
ergibt sich für den entpackten Schnapschuss der deutschen Wikipedia eine
Größe von 7,5 GB. Dieser müsste komplett ausgelesen (und dabei die XML-
wie Wiki-Syntax entfernt) werden; erst dann könnte man die
{1,2,3}-Gramme auswerten. Isgesamt wäre das zwar eine ziemliche
Rechenaufgabe für einen 08/15-PC, aber m. E. durchaus noch in Rahmen des
Möglichen (die konkrete Rechendauer hängt natürlich auch entscheidend on
einer effizienten Implementierung ab).
Die Textbasis wäre halt nochmal deutlich grösser als die Leipziger
Variante, aber ob das für uns auch einen echten Mehrwert bringen würde,
darf durchaus angezweifelt werden.
Rechtschreibfehler wird es in Wikipedia ebenfalls geben - wie überall.
Klar, aber die meisten Artikel in der Wikipedia sind vielfach
gegengelesen bzw. korrigiert worden … wenigstens in der Theorie sollten
deshalb nur im akzeptablen Maße Rechtschreibfehler auftreten.
Somit können aus Lexika zwar Wortlisten extrahiert werden, jedoch wird
die Relevanz für den allgemeinen Gebrauch von daraus gewonnenen
Worthäufigkeiten extrem variieren.
Das ist allerdings wahr, aber jede Textquelle hat ihre spezifischen Vor-
wie Nachteile.
Viele Grüße,
Dennis-ſ
¹ http://de.wikipedia.org/wiki/Wikipedia:Download
²
http://download.wikimedia.org/dewiki/latest/dewiki-latest-pages-articles.xml.bz2
(1,6 GB!)
³
http://download.wikimedia.org/ndswiki/latest/ndswiki-latest-pages-articles.xml.bz2