Karl Köckemann schrieb am 02.05.2010 23:31: > Hallo, > > im Winter habe ich die für uns zugrunde gelegte Datei des Leipziger Korpus > überarbeitet. > Hauptsächlich wurden folgende Punkte umgesetzt: > - Umstellung auf die Neue Rechtschreibung, > - Bereinigung sehr vieler zeitungstypischer Schreibweisen (dpa, Reuter, etc.), > - Korrektur vieler Rechtschreibfehler.
Das könnte wirklich eine Verbesserung für die Auswertung und Optimierung in Bezug auf Neo 3 geben. > Die daraus entstandenen n-Gramm-Dateien: > 2gramme.mod.txt > 3gramme.mod.txt > 2grammetab.tab.mod.txt > 3grammetab.tab.mod.txt Bei diesen Dateien ist leider ein kleiner Schönheitsfehler, es werden auch Bi- und Trigramme mit Leerzeichen erstellt, ich glaube nicht, dass dies Absicht war, oder? Mit freundlichen Grüßen Frakturfreak -- Wenns halt war, wies halt war, irgendwie wars, denn noch nie wars, dass es nicht irgendwie war. Mein Blog: http://frakturfreaks-kleine-dinge.1on.de/
signature.asc
Description: OpenPGP digital signature