Re: [Neo] Wikipedia-Korpus selbstgemacht
Florian Janßen writes: Karl schrieb am 25.03.2011 um 11:07 Uhr: Was (vermutlich nicht nur) mich interessiert: Kann eine Anleitung erstellt werden, nach der die einzelnen Schritte so umsetzen kann, dass aus auf Wikimedia-Software basierende freie Wikis jeder selber den Textkorpus extrahieren kann? Ja, aber ich bin noch nicht ganz mit meiner Methode zufrieden. Ich bin etwas rabiat zu Werke gegangen und habe im Zweifelsfall lieber einen Ausdruck entfernt, statt ihn stehen zu lassen um einen möglichst „sauberen“ Korpus zu erreichen. Auf der anderen Seite habe ich nur manuell den Wikisyntax entfernt, der mir aufgefallen ist. Ich hatte keine Lust mir die ellenlange php-Datei vorzunehmen, in der der ganze Zauber steckt. Hallo Florian, in Deinem Beitrag vom 17 Apr 12:56 steht ein Teil des von Dir verwendeten Skripts. Vielen herzlichen Dank dafür! Als Anfänger mit der Windows PowerShell sowie in der Bearbeitung von XML-Dateien bin ich sehr früh an meine Grenzen gestoßen, die sich auch per Internetrecherche nicht erweiterten. So bekomme ich es weder auf die Reihe, die zu lesende Datei zu öffnen, geschweige denn die Methode ReadToFollowing aufzurufen, die nicht in [System.String] enthalten ist. Zudem muss man sich bei Windows selbst als angemeldeter Adminstrator noch werweißwelche Rechte zuteilen, damit überhaupt etwas geht - aber: welche Rechte brauche ich, um mit PowerShell arbeiten zu können? Oder gibt es unter Windows 7 einen Befehl Bin als Admin angemeldet: Teile mir alle Rechte zu, die es gibt. ;) Für mich sieht das Befassen mit Windows PowerShell vorerst wie undurchdringliches Gestrüpp aus. :-( Wie hast Du es geschafft, in die Materie zu gelangen? Mit netten Grüßen Karl
[Neo] python-Skript gefunden (was: Wikipedia-Korpus selbstgemacht)
Soeben verlief die Suche nach einem Konverter von MediaWiki-Markup zu Text erfolgreich. Mit dem unter GNU-Lizenz stehenden Programm läßt sich aus dem Wikipedia-XML-Dump ein Korups erstellen: http://medialab.di.unipi.it/wiki/Wikipedia_Extractor Selbst mit meinen geringen Kenntnissen gelang es binnen kurzer Zeit, das Programm so zu verändern, dass in der Ausgabedatei doc ... bzw. /doc durch Zeilenvorschübe ersetzt werden, die Überschriften innerhalb von Artikeln verschwinden, nach der Titelzeile von Artikeln eine Leerzeile folgt und die Verweise nicht mehr in html-Schreibweise dargestellt werden, sowie weitere auf deutschsprachige Namespaces basierende Inhalte komplett entfernt werden. Mit den wenigen Änderungen sieht das Ergebnis auf den Blick nach dem aus, was wir für Neo benötigen. Zwar werden Artikel zu Personen, Länder, Städte, Berge, Flüsse, etc. nicht entfernt, jedoch steht mit dem Quelltext eine gute Grundlage bereit, die unseren Bedarf bereits gut deckt. Mit netten Grüßen Karl
Re: [Neo] python-Skript gefunden
könntest du mir bitte mal so 10 MB Ergebnis per E-Mail zukommen lassen? Am 22.04.2011 13:12, schrieb Karl Köckemann: Soeben verlief die Suche nach einem Konverter von MediaWiki-Markup zu Text erfolgreich. Mit dem unter GNU-Lizenz stehenden Programm läßt sich aus dem Wikipedia-XML-Dump ein Korups erstellen: http://medialab.di.unipi.it/wiki/Wikipedia_Extractor Selbst mit meinen geringen Kenntnissen gelang es binnen kurzer Zeit, das Programm so zu verändern, dass in der Ausgabedateidoc ... bzw./doc durch Zeilenvorschübe ersetzt werden, die Überschriften innerhalb von Artikeln verschwinden, nach der Titelzeile von Artikeln eine Leerzeile folgt und die Verweise nicht mehr in html-Schreibweise dargestellt werden, sowie weitere auf deutschsprachige Namespaces basierende Inhalte komplett entfernt werden. Mit den wenigen Änderungen sieht das Ergebnis auf den Blick nach dem aus, was wir für Neo benötigen. Zwar werden Artikel zu Personen, Länder, Städte, Berge, Flüsse, etc. nicht entfernt, jedoch steht mit dem Quelltext eine gute Grundlage bereit, die unseren Bedarf bereits gut deckt. Mit netten Grüßen Karl
Re: [Neo] python-Skript gefunden
Michael Gattinger writes: Am 22.04.2011 13:12, schrieb Karl Köckemann: Soeben verlief die Suche nach einem Konverter von MediaWiki-Markup zu Text erfolgreich. Mit dem unter GNU-Lizenz stehenden Programm läßt sich aus dem Wikipedia-XML-Dump ein Korups erstellen: http://medialab.di.unipi.it/wiki/Wikipedia_Extractor könntest du mir bitte mal so 10 MB Ergebnis per E-Mail zukommen lassen? Sowohl den modifizierten Quelltext, als auch die ersten 10 MB des Ergebnisses sind zugesandt. Was schon einmal auffällt: Aufzählungen müssen noch entfernt werden und auch auf {{...}} folgende Kommata mit Leerstelle. Mit netten Grüßen Karl
Re: [Neo] Alternative Layout-Berechnung
Hallo Liste und Joke, Am 18.04.2011, 10:11 Uhr, schrieb Joke de Buhr j...@seiken.de: natürlich nicht auf anhieb verstanden. Hoffe, nach mehrmaligem Durchlesen war es dann doch verständlich. Aber mal anders gefragt: Du meintest du hättest da schon ein ähnliches Programm vorliegen. a) Welche Programmiersprache b) hast du es mal modifiziert c) kann man etwas betrachten? Das Programm ist in C++ geschrieben, allerdings ist der Code nicht sehr schön. Es vertauscht Spalten einer Matrix per Backtracking, um die Diagonale mit 1en zu füllen. Es gibt nur Einträge mit 1 und 0. Zu modifizieren sind also die zulässigen Werte für Einträge und das Renormieren nach dem Vertauschen. Die Laufzeit ist recht gut, nur das initiale Sortieren läuft über bidirektionales Bubblesort (bei 1000*1000 experimentell O(10s), also vernachlässigbar gegenüber der restlichen Laufzeit). Ein Hinweis, wie man gewichtete Optimierungsprobleme sehr gut Lösen kann. Es gibt da ein Programm namens lpsolve [1]. Ich weiß nicht, ob es jetzt gerade mit dem bestehenden Gedankengang weiterhilft, generell ließe sich lpsolve allerdings für hier einsetzen. Das fällt in den Bereich Linear Programming. [1] http://lpsolve.sourceforge.net/ Das klingt sehr interessant. Schau ich mir die Tage mal an. Gruß, Marco8