Soeben fand ich das Verzeichnis, in dem die herunterladbaren Textcorpora der Uni Leipzig stehen: http://corpora.informatik.uni-leipzig.de/resources/flatfiles
Die genaue Bedeutung scheint unklar. Auf dieser Seite geht zumindest die Bedeutung des Inhalts von de05_3M.zip hervor: http://www.domain-scan.net/index.php?option=com_content&view=article&id=19 Es handelt sich um einen deutschsprachigen Textcorpus aus 3 Millionen Sätzen, die dem Internet und Zeitungsartikeln entstammen. Ähnliche Dateinamen des Ordners klingen, als wenn auch kleinere Corpora verfügbar sind. Es wäre gut, wenn es einen Textkörper gäbe, den alle einheitlich verwenden könnten, um herauszufinden, ob unterschiedliche selbst geschriebene Auswerteprogramme für bestimmte Zwischenschritte korrekte Ergebnisse liefern. Die Textcorpora können geeignet sein, die Häufigkeiten aller darin vorkommender Zeichen, Bi- und Trigramme zu erfassen, da darüber bislang keine vollständigen Daten vorliegen. Mit netten Grüßen Karl