[Neo] Wikipedia-Textcorpora (was: Re: Textcorpora der Uni Leipzig)

Dennis Heidsiek Mon, 30 Nov 2009 04:16:02 -0800

Hallo allerseits,


Ulf Bro ſchrieb am 29.11.2009 16:49 Uhr:

Eine sehr gute Idee. Sobald die Wortliste vorliegt, werde ich sie inmeinem Auswerteprogramm übernehmen. Versprochen.


Vielen Dank, aber ich habe nichts fest versprochen …

Karl Köckemann ſchrieb am 29.11.2009 22:01 Uhr:

Den (vielleicht arg unterschätzt) hohen Aufwand des Strippens einesWikipedia-Dumps traue ich mir nicht zu, obschon die Idee mir gut gefällt.

Wenigstens den nötigen Aufwand kann man recht gut abschätzen: Gemäß derWikipedia-Seite über Dumps¹ bräuchten wir wohl die Dateidewiki-articles.xml.bz2:

This contains current versions of article content (Articles,templates, image descriptions, and primary meta-pages), and is thearchive most mirror sites will probably want

Dummerweise kommt diese (bereits komprimierte!) Datei² auf stolze 1,6GB.Ich habe mir mal als Vergleichsmaßstab die plattdeusche Wikipediaheruntergeladen; hier kommt die entsprechende Datei³ auf ›nur‹ auf12,03 MB, und wächst entpackt auf 56,6 MB an (Faktor 4,705). Damitergibt sich für den entpackten Schnapschuss der deutschen Wikipedia eineGröße von 7,5 GB. Dieser müsste komplett ausgelesen (und dabei die XML-wie Wiki-Syntax entfernt) werden; erst dann könnte man die{1,2,3}-Gramme auswerten. Isgesamt wäre das zwar eine ziemlicheRechenaufgabe für einen 08/15-PC, aber m. E. durchaus noch in Rahmen desMöglichen (die konkrete Rechendauer hängt natürlich auch entscheidend oneiner effizienten Implementierung ab).

Die Textbasis wäre halt nochmal deutlich grösser als die LeipzigerVariante, aber ob das für uns auch einen echten Mehrwert bringen würde,darf durchaus angezweifelt werden.

Rechtschreibfehler wird es in Wikipedia ebenfalls geben - wie überall.

Klar, aber die meisten Artikel in der Wikipedia sind vielfachgegengelesen bzw. korrigiert worden … wenigstens in der Theorie solltendeshalb nur im akzeptablen Maße Rechtschreibfehler auftreten.

Somit können aus Lexika zwar Wortlisten extrahiert werden, jedoch wirddie Relevanz für den allgemeinen Gebrauch von daraus gewonnenenWorthäufigkeiten extrem variieren.

Das ist allerdings wahr, aber jede Textquelle hat ihre spezifischen Vor-wie Nachteile.



Viele Grüße,
Dennis-ſ


¹ http://de.wikipedia.org/wiki/Wikipedia:Download

²http://download.wikimedia.org/dewiki/latest/dewiki-latest-pages-articles.xml.bz2(1,6 GB!)³http://download.wikimedia.org/ndswiki/latest/ndswiki-latest-pages-articles.xml.bz2

[Neo] Wikipedia-Textcorpora (was: Re: Textcorpora der Uni Leipzig)

Antwort per Email an