Am Montag, 03.05.2010, 21:47 +0200 schrieb Andreas Wettstein: Ich habe meinen Optimierer mit beiden Korpussen je 25000 Runden laufen > lassen. Mit einem Teil (ca 100k Zeilen) des alten Korpus [...] > Das ging flott. So frühzeitig hatte ich eine Statistik nicht erwartet. D. h. etwa 3 % des Korpusses wurden für die Statistik verwendet.
Für die speziellen Kriterien die gerade in meinem Sourcecode stehen > kommt also dieselbe Tastatur raus. Das sollte uns nicht enttäuschen, im > Gegenteil: Wir sehen, dass nicht jede kleine Variation am Korpus > unbedingt das Optimum ändert. > *neugierig* Um was ging es bei den gerade im Sourcecode stehenden speziellen Kriterien? Also sollte es zudem darauf hinaus laufen, weitere Korpora aus verschiedenen Gebieten für unsere Zwecke aufzubereiten. Ausserdem ist die Punktzahl mit beiden Korpussen verschieden, und zwar > mehr als man durch blosse statistische Variationen erwarten würde. Mit > anderen Kriterien könnte das Optimum für die beiden Korpusse durchaus > verschieden sein. > Der Leipziger Korpus enthielt neben sinnlosen Zeichenfolgen auch lückenhafte Sätze, was eindeutig auf 'dumme' Automatisierungssoftware für das Erstellen des Korpus zurückzuführen sind. Leider verzerren Sätze aus Sport- und Wirtschaftsteil von Zeitungen auch den modifizierten Leipziger Korpus. Allzu häufig wiederholte Ortsnamen sowie Datumsangaben wurden dezimiert. Nicht zuletzt dadurch weist der modifizierte Leipziger Korpus eine geringere Zeichenzahl auf. Wenigstens weist der modifizierte Leipziger Korpus erheblich weniger Unfug auf als der Leipziger Korpus - und Neue Rechtschreibung. Vielen Dank für die Statistik! Mit netten Grüßen Karl