Karl schrieb am 25.03.2011 um 11:07 Uhr:
> Florian Janßen writes:
> 
>> Wikipedia-Korpus ist fertig (knapp 9GB in 190 ~50MB Text-Dateien). Die
>> N-Gramme sind auch fast fertig berechnet.
> 
> Du hast meine Hochachtung für die wunderbare Leistung!
> Ist es Dir möglich, mir eine der Textdateien zukommen zu lassen?

Kann ich machen, ich kann eine kleinere Datei erzeugen. Oder eine Datei
je Artikel und dir ein paar schicken.


> Dessen Inhalt möchte ich mir genauer ansehen, denn er wird sicher 
> besser sein, als der des Leipziger Korpus. Bei Zeichencodierung 
> Unicode (UTF-8) wird der Wikipediakorpus der erste Korpus sein, der 
> vielleicht eine Aussage zu den Zeichen ermöglicht, die über den
> ASCII-Zeichenvorrat hinausgehen.

Da wäre ich mir nicht zu sicher. Die in der normalen Sprache nötigen
Sonderzeichen sind auch nicht so häufig vorhanden, wie sie sein müssten,
da recht oft die Ersatzzeichen benutzt wurden.
Außerdem sind die Sonderzeichen für html und Wikitext
unterrepräsentiert, da ich deren Spuren ja aus dem Text entfernt habe.
Aber für Programmiersprachen & Co sollen wir vielleicht besser reine
Sprachkorpora erstellen und die zu einem geringen Teil beimischen, bzw.
darauf achten, dass deren häufige Bi- und Trigamme kein Worstcase
produzieren.

> Was (vermutlich nicht nur) mich interessiert:
> Kann eine Anleitung erstellt werden, nach der die einzelnen Schritte so 
> umsetzen
> kann, dass aus auf Wikimedia-Software basierende freie Wikis jeder selber den
> Textkorpus extrahieren kann?

Ja, aber ich bin noch nicht ganz mit meiner Methode zufrieden. Ich bin
etwas rabiat zu Werke gegangen und habe im Zweifelsfall lieber einen
Ausdruck entfernt, statt ihn stehen zu lassen um einen möglichst
„sauberen“ Korpus zu erreichen.
Auf der anderen Seite habe ich nur manuell den Wikisyntax entfernt, der
mir aufgefallen ist. Ich hatte keine Lust mir die ellenlange php-Datei
vorzunehmen, in der der ganze Zauber steckt.


>> Ich bin mal gespannt, wie groß die Unterschiede zum Leipziger Korpus
>> sind und wie sehr die sich in der Bewertung mit Arnes Optimierer auswirken.
> 
> Da der Wikipediakorpus lexikalischer Natur ist, der Leipziger Korpus hingegen
> zeitungslastig, erwarte ich deutliche Unterschiede - auch bei den n-Grammen. 
> Ich
> bin ebenfalls auf erste Ergebnisse gespannt.

Die N-Gramme dauern noch, ich habe einen richtig saftigen Fehler in
meinem Skript:
Ich habe aus „Zufallswort “ nur die Bigramme
»Zu« »fa« »ll« »sw« »or« »t « erstellt, nicht aber die richtigen
»Zu« »uf« »fa« »al« »ll« »ls« »sw« »wo« »or« »rt« »t « erstellt.

Also heute Nacht nochmal das gleiche von vorn.

Gruß Florian



Attachment: signature.asc
Description: OpenPGP digital signature

Antwort per Email an