Hallo allerseits,

Florian Janßen ſchrieb am 24.03.2011 13:51 Uhr:
die Wikipedia Seiten und Artikel vom 01.02.2011 liegen mir als xml-Datei
(gut 8GB) vor und ich ein Skript geschrieben, dass mir die Relevanten
Text-Knoten extrahiert. Vorerst erstelle ich für jeden Artikel einen
eigene Datei.

Bei 8GB muss aber Deine Leitung geblüht haben ;). Die aktuelle Version aller Seiten (pages-meta-current.xml.bz2) hat nur 3.3 GB, und wenn man zusätzlich die Benutzer- und Diskussionsſeiten wegläßt und nur die Artikel herunterlädt (pages-articles.xml.bz2), sind es sogar ›nur‹ noch 2.1 GB (Komprimiert, versteht sich ;):

http://dumps.wikimedia.org/dewiki/latest/

Und hier ist nochmal die entsprechende Hilfeseite in der Wikipedia:
https://secure.wikimedia.org/wikipedia/de/wiki/Wikipedia:Download


Viele Grüße,
Dennis-ſ


Antwort per Email an