Re: [Neo] Wikipedia-Korpus selbstgemacht

Karl Thu, 24 Mar 2011 06:57:14 -0700

Florian Janßen writes:

> die Wikipedia Seiten und Artikel vom 01.02.2011 liegen mir als xml-Datei
> (gut 8GB) vor und ich ein Skript geschrieben, dass mir die Relevanten
> Text-Knoten extrahiert. Vorerst erstelle ich für jeden Artikel einen
> eigene Datei.


Puh, das wird viel Arbeit!
Werden so viele einzelne Dateien noch sinnvoll handhabbar sein - und zudem
wesentlich mehr als 8 GB erfordern?

> Der Text liegt dann im Wikisyntax vor. Weiß jemand ob es schon Tools
> gibt um aus dem Wikitext normalen Text zu erzeugen?

Vor einem halben Jahr versuchte ich erfolglos ein Programm zum Strippen von
Wiki-Markup zu finden. Was mir jetzt in den Sinn kommt:
Es müsste genug Parser geben, die Wiki-Markup in HTML umsetzen, wobei wir einen
benötigten, der alle Bilder entfernt.
Vielleicht lassen sich für das Strippen von HTML einfacher Programme finden.

Mit netten Grüßen
Karl

Re: [Neo] Wikipedia-Korpus selbstgemacht

Antwort per Email an