Hallo, im Winter habe ich die für uns zugrunde gelegte Datei des Leipziger Korpus überarbeitet. Hauptsächlich wurden folgende Punkte umgesetzt: - Umstellung auf die Neue Rechtschreibung, - Bereinigung sehr vieler zeitungstypischer Schreibweisen (dpa, Reuter, etc.), - Korrektur vieler Rechtschreibfehler.
Jedoch auch sehr viele andere Feinheiten wurden berücksichtigt. Trotzdem die allerletzten Kleinigkeiten leider nicht mehr umgesetzt werden konnten, kann man diese Überarbeitung dennoch als nahezu abgeschlossen ansehen. Daher seien die Ergebnisse nun hier vorgestellt. Zunächst der überarbeitete Textkörper: sentences.mod.txt Heruntergeladen werden kann er mit dem Verweis: http://www.simpleupload.net/download/507348/sentences.mod.txt.zip.html Die daraus entstandenen n-Gramm-Dateien: 1gramme.mod.txt 2gramme.mod.txt 3gramme.mod.txt 1gramme.tab.mod.txt 2grammetab.tab.mod.txt 3grammetab.tab.mod.txt können mit den Verweisen heruntergeladen werden: http://freenet-homepage.de/nexusboard/Neo/ngramme.mod/1gramme.mod.txt http://freenet-homepage.de/nexusboard/Neo/ngramme.mod/2gramme.mod.txt http://freenet-homepage.de/nexusboard/Neo/ngramme.mod/3gramme.mod.txt http://freenet-homepage.de/nexusboard/Neo/ngramme.mod/1gramme.tab.mod.txt http://freenet-homepage.de/nexusboard/Neo/ngramme.mod/2grammetab.tab.mod.txt http://freenet-homepage.de/nexusboard/Neo/ngramme.mod/3grammetab.tab.mod.txt In den ersten drei Dateien sind die einzelnen n-Gramm-Zeichen zusammengeschrieben, in den letzten drei Dateien mit 'tab' im Dateinamen sind die n-Gramm-Zeichen durch Tabstops voneinander getrennt, wodurch sie direkt in Tabellenkalkulationsprogrammen eingelesen werden können. Für unsere Zwecke sind diese aktuell kreierten Daten sicher besser zu gebrauchen, als der pure - zu zeitungslastige - Leipziger Korpus. Wer Interesse daran hat, dem steht es frei, diese Dateien zu verwenden. Mit schönen Grüßen Karl