Hallo, leider sehe ich die E-Mail gerade erst.
Ich bin seit 2 Monaten dabei mir ein Programm zu schreiben, die mir eine
Wikipedia-Source verarbeitet und habe sie fast fertiggestellt.
Ich persönlich habe eine 40GB source von Wikipedia in HTML vorliegen.
Ich muss also
- das HTML entfernen
- Entities übersetzen
- Wiederholende Sachen, wie [Bearbeiten] oder -- Nickname HH:MM, DD.
MMM. JJJJ (CEST) entfernen
Die Einzelteile zu HTML entfernen und Entities übersetzen liegen mir
bereits vor und müssen nurnoch zusammengefügt werden.
Übrigends soll das Programm noch mehr können, weshalb es noch nicht
fertig ist, die restlichen Programmteile sind aber auch schon quasi
Fertig und müssen nurnoch zusammengebastelt werden damit alles zusammen
harmoniert.
Weitere Informationen auf Anfrage.
Mit freundlichen Grüßen
Michael Gattinger
Am 24.03.2011 13:51, schrieb Florian Janßen:
Hallo,
die Wikipedia Seiten und Artikel vom 01.02.2011 liegen mir als xml-Datei
(gut 8GB) vor und ich ein Skript geschrieben, dass mir die Relevanten
Text-Knoten extrahiert. Vorerst erstelle ich für jeden Artikel einen
eigene Datei.
Der Text liegt dann im Wikisyntax vor. Weiß jemand ob es schon Tools
gibt um aus dem Wikitext normalen Text zu erzeugen?
Gruß Florian