Soeben fand ich das Verzeichnis, in dem die herunterladbaren
Textcorpora der Uni Leipzig stehen:
http://corpora.informatik.uni-leipzig.de/resources/flatfiles

Die genaue Bedeutung scheint unklar. Auf dieser Seite geht zumindest
die Bedeutung des Inhalts von de05_3M.zip hervor:
http://www.domain-scan.net/index.php?option=com_content&view=article&id=19

Es handelt sich um einen deutschsprachigen Textcorpus aus 3 Millionen
Sätzen, die dem Internet und Zeitungsartikeln entstammen.
Ähnliche Dateinamen des Ordners klingen, als wenn auch kleinere Corpora
verfügbar sind.

Es wäre gut, wenn es einen Textkörper gäbe, den alle einheitlich
verwenden könnten, um herauszufinden, ob unterschiedliche selbst
geschriebene Auswerteprogramme für bestimmte Zwischenschritte
korrekte Ergebnisse liefern.

Die Textcorpora können geeignet sein, die Häufigkeiten aller darin
vorkommender Zeichen, Bi- und Trigramme zu erfassen, da darüber
bislang keine vollständigen Daten vorliegen.

Mit netten Grüßen
Karl



Antwort per Email an