Florian Janßen writes: > die Wikipedia Seiten und Artikel vom 01.02.2011 liegen mir als xml-Datei > (gut 8GB) vor und ich ein Skript geschrieben, dass mir die Relevanten > Text-Knoten extrahiert. Vorerst erstelle ich für jeden Artikel einen > eigene Datei.
Puh, das wird viel Arbeit! Werden so viele einzelne Dateien noch sinnvoll handhabbar sein - und zudem wesentlich mehr als 8 GB erfordern? > Der Text liegt dann im Wikisyntax vor. Weiß jemand ob es schon Tools > gibt um aus dem Wikitext normalen Text zu erzeugen? Vor einem halben Jahr versuchte ich erfolglos ein Programm zum Strippen von Wiki-Markup zu finden. Was mir jetzt in den Sinn kommt: Es müsste genug Parser geben, die Wiki-Markup in HTML umsetzen, wobei wir einen benötigten, der alle Bilder entfernt. Vielleicht lassen sich für das Strippen von HTML einfacher Programme finden. Mit netten Grüßen Karl