könntest du mir bitte mal so 10 MB Ergebnis per E-Mail zukommen lassen?
Am 22.04.2011 13:12, schrieb Karl Köckemann:
Soeben verlief die Suche nach einem Konverter von MediaWiki-Markup zu Text erfolgreich. Mit dem unter GNU-Lizenz stehenden Programm läßt sich aus dem Wikipedia-XML-Dump ein Korups erstellen: http://medialab.di.unipi.it/wiki/Wikipedia_Extractor Selbst mit meinen geringen Kenntnissen gelang es binnen kurzer Zeit, das Programm so zu verändern, dass in der Ausgabedatei<doc ...> bzw.</doc> durch Zeilenvorschübe ersetzt werden, die Überschriften innerhalb von Artikeln verschwinden, nach der Titelzeile von Artikeln eine Leerzeile folgt und die Verweise nicht mehr in html-Schreibweise dargestellt werden, sowie weitere auf deutschsprachige Namespaces basierende Inhalte komplett entfernt werden. Mit den wenigen Änderungen sieht das Ergebnis auf den Blick nach dem aus, was wir für Neo benötigen. Zwar werden Artikel zu Personen, Länder, Städte, Berge, Flüsse, etc. nicht entfernt, jedoch steht mit dem Quelltext eine gute Grundlage bereit, die unseren Bedarf bereits gut deckt. Mit netten Grüßen Karl
