Hallöle!

Florian Janßen schrieb:
> Karl schrieb am 25.03.2011 um 11:07 Uhr:
> > Florian Janßen writes: Ist es Dir möglich, mir eine der Textdateien 
> > zukommen zu lassen?
> 
> Kann ich machen, ich kann eine kleinere Datei erzeugen. Oder eine 
> Datei je Artikel und dir ein paar schicken.

Für mich bitte auch. Ich kenne mich als Hobby-Wikipedianer ein bisschen 
damit aus (vielleicht untertrieben, weiß ich nicht ;)) und würde mir das 
Ergebnis gerne ansehen.

> > Dessen Inhalt möchte ich mir genauer ansehen, denn er wird sicher 
> > besser sein, als der des Leipziger Korpus. Bei Zeichencodierung 
> > Unicode (UTF-8) wird der Wikipediakorpus der erste Korpus sein, der 
> > vielleicht eine Aussage zu den Zeichen ermöglicht, die über den 
> > ASCII-Zeichenvorrat hinausgehen.
> 
> Da wäre ich mir nicht zu sicher. Die in der normalen Sprache nötigen 
> Sonderzeichen sind auch nicht so häufig vorhanden, wie sie sein 
> müssten, da recht oft die Ersatzzeichen benutzt wurden.

Das würde ich mir gerne auch noch einmal genauer anschauen.

> Außerdem sind die Sonderzeichen für html und Wikitext 
> unterrepräsentiert, da ich deren Spuren ja aus dem Text entfernt habe.

Das ist doch auch gut so, schließlich wollen wir ja auf allgemeinen Text 
und nicht auf Wiki(pedia)-Bearbeiten optimieren. (Allerdings werden die 
auch nicht einfach so runtergeschrieben: Wie beim Verfassen von anderen 
anspruchsvollen Texten wird mal ein bisschen dort und dann wieder hier 
geschrieben. Nach der Anlage des Artikels beschränkt sich das Bearbeiten 
auch häufig auf Ergänzungen und Korrekturen. Oft ist der Text nicht 
monolithisch entstanden. Aber das nur so nebenbei.)

> > Was (vermutlich nicht nur) mich interessiert: Kann eine Anleitung 
> > erstellt werden, nach der die einzelnen Schritte so umsetzen kann, 
> > dass aus auf Wikimedia-Software basierende freie Wikis jeder selber 
> > den Textkorpus extrahieren kann?
> 
> Ja, aber ich bin noch nicht ganz mit meiner Methode zufrieden. Ich bin 
> etwas rabiat zu Werke gegangen und habe im Zweifelsfall lieber einen 
> Ausdruck entfernt, statt ihn stehen zu lassen um einen möglichst 
> „sauberen“ Korpus zu erreichen. Auf der anderen Seite habe ich nur 
> manuell den Wikisyntax entfernt, der mir aufgefallen ist. Ich hatte 
> keine Lust mir die ellenlange php-Datei vorzunehmen, in der der ganze 
> Zauber steckt.

Ich denke, ich kann da ein bisschen was beitragen. Vielleicht hast du 
zum Vergleich noch Dateien, einmal mit mehr und einmal mit weniger 
MediaWiki-Syntax? Damit wir zu rabiates Vorgehen ausschließen können.

> Die N-Gramme dauern noch, ich habe einen richtig saftigen Fehler in 
> meinem Skript: Ich habe aus „Zufallswort “ nur die Bigramme »Zu« »fa« 
> »ll« »sw« »or« »t « erstellt, nicht aber die richtigen »Zu« »uf« »fa« 
> »al« »ll« »ls« »sw« »wo« »or« »rt« »t « erstellt.

Running gag ;)


Freundliche Grüße
Martin

Antwort per Email an