Hallo, leider sehe ich die E-Mail gerade erst.

Ich bin seit 2 Monaten dabei mir ein Programm zu schreiben, die mir eine Wikipedia-Source verarbeitet und habe sie fast fertiggestellt.
Ich persönlich habe eine 40GB source von Wikipedia in HTML vorliegen.

Ich muss also
- das HTML entfernen
- Entities übersetzen
- Wiederholende Sachen, wie [Bearbeiten] oder -- Nickname HH:MM, DD. MMM. JJJJ (CEST) entfernen

Die Einzelteile zu HTML entfernen und Entities übersetzen liegen mir bereits vor und müssen nurnoch zusammengefügt werden.

Übrigends soll das Programm noch mehr können, weshalb es noch nicht fertig ist, die restlichen Programmteile sind aber auch schon quasi Fertig und müssen nurnoch zusammengebastelt werden damit alles zusammen harmoniert.

Weitere Informationen auf Anfrage.


Mit freundlichen Grüßen

Michael Gattinger

Am 24.03.2011 13:51, schrieb Florian Janßen:
Hallo,

die Wikipedia Seiten und Artikel vom 01.02.2011 liegen mir als xml-Datei
(gut 8GB) vor und ich ein Skript geschrieben, dass mir die Relevanten
Text-Knoten extrahiert. Vorerst erstelle ich für jeden Artikel einen
eigene Datei.

Der Text liegt dann im Wikisyntax vor. Weiß jemand ob es schon Tools
gibt um aus dem Wikitext normalen Text zu erzeugen?

Gruß Florian




Antwort per Email an