Florian Janßen writes:

> die Wikipedia Seiten und Artikel vom 01.02.2011 liegen mir als xml-Datei
> (gut 8GB) vor und ich ein Skript geschrieben, dass mir die Relevanten
> Text-Knoten extrahiert. Vorerst erstelle ich für jeden Artikel einen
> eigene Datei.

Puh, das wird viel Arbeit!
Werden so viele einzelne Dateien noch sinnvoll handhabbar sein - und zudem
wesentlich mehr als 8 GB erfordern?

> Der Text liegt dann im Wikisyntax vor. Weiß jemand ob es schon Tools
> gibt um aus dem Wikitext normalen Text zu erzeugen?

Vor einem halben Jahr versuchte ich erfolglos ein Programm zum Strippen von
Wiki-Markup zu finden. Was mir jetzt in den Sinn kommt:
Es müsste genug Parser geben, die Wiki-Markup in HTML umsetzen, wobei wir einen
benötigten, der alle Bilder entfernt.
Vielleicht lassen sich für das Strippen von HTML einfacher Programme finden.

Mit netten Grüßen
Karl


Antwort per Email an