Karl Köckemann schrieb am 02.05.2010 23:31:
> Hallo,
> 
> im Winter habe ich die für uns zugrunde gelegte Datei des Leipziger Korpus
> überarbeitet.
> Hauptsächlich wurden folgende Punkte umgesetzt:
> - Umstellung auf die Neue Rechtschreibung,
> - Bereinigung sehr vieler zeitungstypischer Schreibweisen (dpa, Reuter, etc.),
> - Korrektur vieler Rechtschreibfehler.

Das könnte wirklich eine Verbesserung für die Auswertung und Optimierung
in Bezug auf Neo 3 geben.


> Die daraus entstandenen n-Gramm-Dateien:

> 2gramme.mod.txt
> 3gramme.mod.txt
> 2grammetab.tab.mod.txt
> 3grammetab.tab.mod.txt


Bei diesen Dateien ist leider ein kleiner Schönheitsfehler, es werden
auch Bi- und Trigramme mit Leerzeichen erstellt, ich glaube nicht, dass
dies Absicht war, oder?

Mit freundlichen Grüßen

Frakturfreak
-- 
Wenns halt war, wies halt war, irgendwie wars, denn noch nie wars, dass
es nicht irgendwie war.

Mein Blog: http://frakturfreaks-kleine-dinge.1on.de/

Attachment: signature.asc
Description: OpenPGP digital signature

Antwort per Email an