Florian Janßen writes: > Wikipedia-Korpus ist fertig (knapp 9GB in 190 ~50MB Text-Dateien). Die > N-Gramme sind auch fast fertig berechnet.
Du hast meine Hochachtung für die wunderbare Leistung! Ist es Dir möglich, mir eine der Textdateien zukommen zu lassen? Dessen Inhalt möchte ich mir genauer ansehen, denn er wird sicher besser sein, als der des Leipziger Korpus. Bei Zeichencodierung Unicode (UTF-8) wird der Wikipediakorpus der erste Korpus sein, der vielleicht eine Aussage zu den Zeichen ermöglicht, die über den ASCII-Zeichenvorrat hinausgehen. Was (vermutlich nicht nur) mich interessiert: Kann eine Anleitung erstellt werden, nach der die einzelnen Schritte so umsetzen kann, dass aus auf Wikimedia-Software basierende freie Wikis jeder selber den Textkorpus extrahieren kann? > Ich bin mal gespannt, wie groß die Unterschiede zum Leipziger Korpus > sind und wie sehr die sich in der Bewertung mit Arnes Optimierer auswirken. Da der Wikipediakorpus lexikalischer Natur ist, der Leipziger Korpus hingegen zeitungslastig, erwarte ich deutliche Unterschiede - auch bei den n-Grammen. Ich bin ebenfalls auf erste Ergebnisse gespannt. Mit netten Grüßen Karl