Re: [Neo] Wikipedia-Korpus selbstgemacht

Karl Fri, 25 Mar 2011 03:07:55 -0700

Florian Janßen writes:

> Wikipedia-Korpus ist fertig (knapp 9GB in 190 ~50MB Text-Dateien). Die
> N-Gramme sind auch fast fertig berechnet.


Du hast meine Hochachtung für die wunderbare Leistung!
Ist es Dir möglich, mir eine der Textdateien zukommen zu lassen? Dessen Inhalt
möchte ich mir genauer ansehen, denn er wird sicher besser sein, als der des
Leipziger Korpus. Bei Zeichencodierung Unicode (UTF-8) wird der Wikipediakorpus
der erste Korpus sein, der vielleicht eine Aussage zu den Zeichen ermöglicht,
die über den ASCII-Zeichenvorrat hinausgehen.

Was (vermutlich nicht nur) mich interessiert:
Kann eine Anleitung erstellt werden, nach der die einzelnen Schritte so umsetzen
kann, dass aus auf Wikimedia-Software basierende freie Wikis jeder selber den
Textkorpus extrahieren kann?

> Ich bin mal gespannt, wie groß die Unterschiede zum Leipziger Korpus
> sind und wie sehr die sich in der Bewertung mit Arnes Optimierer auswirken.

Da der Wikipediakorpus lexikalischer Natur ist, der Leipziger Korpus hingegen
zeitungslastig, erwarte ich deutliche Unterschiede - auch bei den n-Grammen. Ich
bin ebenfalls auf erste Ergebnisse gespannt.

Mit netten Grüßen
Karl

Re: [Neo] Wikipedia-Korpus selbstgemacht

Antwort per Email an