Hallo,

im Winter habe ich die für uns zugrunde gelegte Datei des Leipziger Korpus
überarbeitet.
Hauptsächlich wurden folgende Punkte umgesetzt:
- Umstellung auf die Neue Rechtschreibung,
- Bereinigung sehr vieler zeitungstypischer Schreibweisen (dpa, Reuter, etc.),
- Korrektur vieler Rechtschreibfehler.

Jedoch auch sehr viele andere Feinheiten wurden berücksichtigt.
Trotzdem die allerletzten Kleinigkeiten leider nicht mehr umgesetzt werden
konnten, kann man diese Überarbeitung dennoch als nahezu abgeschlossen ansehen.
Daher seien die Ergebnisse nun hier vorgestellt.

Zunächst der überarbeitete Textkörper:
sentences.mod.txt

Heruntergeladen werden kann er mit dem Verweis:
http://www.simpleupload.net/download/507348/sentences.mod.txt.zip.html

Die daraus entstandenen n-Gramm-Dateien:
1gramme.mod.txt
2gramme.mod.txt
3gramme.mod.txt
1gramme.tab.mod.txt
2grammetab.tab.mod.txt
3grammetab.tab.mod.txt

können mit den Verweisen heruntergeladen werden:
http://freenet-homepage.de/nexusboard/Neo/ngramme.mod/1gramme.mod.txt
http://freenet-homepage.de/nexusboard/Neo/ngramme.mod/2gramme.mod.txt
http://freenet-homepage.de/nexusboard/Neo/ngramme.mod/3gramme.mod.txt
http://freenet-homepage.de/nexusboard/Neo/ngramme.mod/1gramme.tab.mod.txt
http://freenet-homepage.de/nexusboard/Neo/ngramme.mod/2grammetab.tab.mod.txt
http://freenet-homepage.de/nexusboard/Neo/ngramme.mod/3grammetab.tab.mod.txt

In den ersten drei Dateien sind die einzelnen n-Gramm-Zeichen
zusammengeschrieben, in den letzten drei Dateien mit 'tab' im Dateinamen sind
die n-Gramm-Zeichen durch Tabstops voneinander getrennt, wodurch sie direkt in
Tabellenkalkulationsprogrammen eingelesen werden können.

Für unsere Zwecke sind diese aktuell kreierten Daten sicher besser zu
gebrauchen, als der pure - zu zeitungslastige - Leipziger Korpus.

Wer Interesse daran hat, dem steht es frei, diese Dateien zu verwenden.

Mit schönen Grüßen
Karl


Antwort per Email an