Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-22 Diskussionsfäden Karl
Florian Janßen writes:

 Karl schrieb am 25.03.2011 um 11:07 Uhr:
  Was (vermutlich nicht nur) mich interessiert:
  Kann eine Anleitung erstellt werden, nach der die einzelnen Schritte so
  umsetzen kann, dass aus auf Wikimedia-Software basierende freie Wikis jeder
  selber den Textkorpus extrahieren kann?
 
 Ja, aber ich bin noch nicht ganz mit meiner Methode zufrieden. Ich bin
 etwas rabiat zu Werke gegangen und habe im Zweifelsfall lieber einen
 Ausdruck entfernt, statt ihn stehen zu lassen um einen möglichst
 „sauberen“ Korpus zu erreichen.
 Auf der anderen Seite habe ich nur manuell den Wikisyntax entfernt, der
 mir aufgefallen ist. Ich hatte keine Lust mir die ellenlange php-Datei
 vorzunehmen, in der der ganze Zauber steckt.

Hallo Florian,

in Deinem Beitrag vom 17 Apr 12:56 steht ein Teil des von Dir verwendeten
Skripts. Vielen herzlichen Dank dafür!

Als Anfänger mit der Windows PowerShell sowie in der Bearbeitung von
XML-Dateien bin ich sehr früh an meine Grenzen gestoßen, die sich auch per
Internetrecherche
nicht erweiterten. So bekomme ich es weder auf die Reihe, die zu lesende Datei
zu öffnen, geschweige denn die Methode ReadToFollowing aufzurufen, die nicht
in [System.String] enthalten ist. Zudem muss man sich bei Windows selbst als
angemeldeter Adminstrator noch werweißwelche Rechte zuteilen, damit überhaupt
etwas geht - aber: welche Rechte brauche ich, um mit PowerShell arbeiten zu
können?
Oder gibt es unter Windows 7 einen Befehl
Bin als Admin angemeldet: Teile mir alle Rechte zu, die es gibt. ;)

Für mich sieht das Befassen mit Windows PowerShell vorerst wie
undurchdringliches Gestrüpp aus. :-(
Wie hast Du es geschafft, in die Materie zu gelangen?

Mit netten Grüßen
Karl




[Neo] python-Skript gefunden (was: Wikipedia-Korpus selbstgemacht)

2011-04-22 Diskussionsfäden Karl Köckemann
Soeben verlief die Suche nach einem Konverter von MediaWiki-Markup zu Text
erfolgreich.

Mit dem unter GNU-Lizenz stehenden Programm läßt sich aus dem Wikipedia-XML-Dump
ein Korups erstellen:
http://medialab.di.unipi.it/wiki/Wikipedia_Extractor

Selbst mit meinen geringen Kenntnissen gelang es binnen kurzer Zeit, das
Programm so zu verändern, dass in der Ausgabedatei doc ... bzw. /doc durch
Zeilenvorschübe ersetzt werden, die Überschriften innerhalb von Artikeln
verschwinden, nach der Titelzeile von Artikeln eine Leerzeile folgt und die
Verweise nicht mehr in html-Schreibweise dargestellt werden, sowie weitere auf
deutschsprachige Namespaces basierende Inhalte komplett entfernt werden.

Mit den wenigen Änderungen sieht das Ergebnis auf den Blick nach dem aus, was
wir für Neo benötigen.

Zwar werden Artikel zu Personen, Länder, Städte, Berge, Flüsse, etc. nicht
entfernt, jedoch steht mit dem Quelltext eine gute Grundlage bereit, die unseren
Bedarf bereits gut deckt.

Mit netten Grüßen
Karl




Re: [Neo] python-Skript gefunden

2011-04-22 Diskussionsfäden Michael Gattinger

könntest du mir bitte mal so 10 MB Ergebnis per E-Mail zukommen lassen?


Am 22.04.2011 13:12, schrieb Karl Köckemann:

Soeben verlief die Suche nach einem Konverter von MediaWiki-Markup zu Text
erfolgreich.

Mit dem unter GNU-Lizenz stehenden Programm läßt sich aus dem Wikipedia-XML-Dump
ein Korups erstellen:
http://medialab.di.unipi.it/wiki/Wikipedia_Extractor

Selbst mit meinen geringen Kenntnissen gelang es binnen kurzer Zeit, das
Programm so zu verändern, dass in der Ausgabedateidoc ...  bzw./doc  durch
Zeilenvorschübe ersetzt werden, die Überschriften innerhalb von Artikeln
verschwinden, nach der Titelzeile von Artikeln eine Leerzeile folgt und die
Verweise nicht mehr in html-Schreibweise dargestellt werden, sowie weitere auf
deutschsprachige Namespaces basierende Inhalte komplett entfernt werden.

Mit den wenigen Änderungen sieht das Ergebnis auf den Blick nach dem aus, was
wir für Neo benötigen.

Zwar werden Artikel zu Personen, Länder, Städte, Berge, Flüsse, etc. nicht
entfernt, jedoch steht mit dem Quelltext eine gute Grundlage bereit, die unseren
Bedarf bereits gut deckt.

Mit netten Grüßen
Karl








Re: [Neo] python-Skript gefunden

2011-04-22 Diskussionsfäden Karl Köckemann
Michael Gattinger writes:

 Am 22.04.2011 13:12, schrieb Karl Köckemann:
  Soeben verlief die Suche nach einem Konverter von MediaWiki-Markup zu Text
  erfolgreich.
 
  Mit dem unter GNU-Lizenz stehenden Programm läßt sich aus dem
  Wikipedia-XML-Dump ein Korups erstellen:
  http://medialab.di.unipi.it/wiki/Wikipedia_Extractor
 
 könntest du mir bitte mal so 10 MB Ergebnis per E-Mail zukommen lassen?

Sowohl den modifizierten Quelltext, als auch die ersten 10 MB des Ergebnisses
sind zugesandt.

Was schon einmal auffällt: Aufzählungen müssen noch entfernt werden und auch auf
{{...}} folgende Kommata mit Leerstelle.

Mit netten Grüßen
Karl




Re: [Neo] Alternative Layout-Berechnung

2011-04-22 Diskussionsfäden Marco Antoni

Hallo Liste und Joke,

Am 18.04.2011, 10:11 Uhr, schrieb Joke de Buhr j...@seiken.de:

 natürlich nicht auf anhieb verstanden.


Hoffe, nach mehrmaligem Durchlesen war es dann doch verständlich.

  Aber mal anders gefragt: Du meintest du hättest da schon ein  
ähnliches Programm vorliegen. a) Welche

 Programmiersprache b) hast du es mal modifiziert c) kann man etwas
 betrachten?



Das Programm ist in C++ geschrieben, allerdings ist der Code nicht sehr  
schön. Es vertauscht Spalten einer Matrix per Backtracking, um die  
Diagonale mit 1en zu füllen. Es gibt nur Einträge mit 1 und 0.
Zu modifizieren sind also die zulässigen Werte für Einträge und das  
Renormieren nach dem Vertauschen. Die Laufzeit ist recht gut, nur das  
initiale Sortieren läuft über bidirektionales Bubblesort (bei 1000*1000  
experimentell O(10s), also vernachlässigbar gegenüber der restlichen  
Laufzeit).


Ein Hinweis, wie man gewichtete Optimierungsprobleme sehr gut Lösen  
kann.

Es gibt da ein Programm namens lpsolve [1]. Ich weiß nicht, ob es jetzt
gerade mit dem bestehenden Gedankengang weiterhilft, generell ließe sich
lpsolve allerdings für hier einsetzen. Das fällt in den Bereich Linear
Programming.

  [1] http://lpsolve.sourceforge.net/


Das klingt sehr interessant. Schau ich mir die Tage mal an.

Gruß, Marco8