Hallo allerseits,
Florian Janßen ſchrieb am 24.03.2011 13:51 Uhr:
die Wikipedia Seiten und Artikel vom 01.02.2011 liegen mir als xml-Datei (gut 8GB) vor und ich ein Skript geschrieben, dass mir die Relevanten Text-Knoten extrahiert. Vorerst erstelle ich für jeden Artikel einen eigene Datei.
Bei 8GB muss aber Deine Leitung geblüht haben ;). Die aktuelle Version aller Seiten (pages-meta-current.xml.bz2) hat nur 3.3 GB, und wenn man zusätzlich die Benutzer- und Diskussionsſeiten wegläßt und nur die Artikel herunterlädt (pages-articles.xml.bz2), sind es sogar ›nur‹ noch 2.1 GB (Komprimiert, versteht sich ;):
http://dumps.wikimedia.org/dewiki/latest/ Und hier ist nochmal die entsprechende Hilfeseite in der Wikipedia: https://secure.wikimedia.org/wikipedia/de/wiki/Wikipedia:Download Viele Grüße, Dennis-ſ