Am Montag, 03.05.2010, 21:47 +0200 schrieb Andreas Wettstein:
Ich habe meinen Optimierer mit beiden Korpussen je 25000 Runden laufen
> lassen. Mit einem Teil (ca 100k Zeilen) des alten Korpus [...]
> Das ging flott. So frühzeitig hatte ich eine Statistik nicht erwartet.
D. h. etwa 3 % des Korpusses wurden für die Statistik verwendet.

Für die speziellen Kriterien die gerade in meinem Sourcecode stehen
> kommt also dieselbe Tastatur raus.  Das sollte uns nicht enttäuschen, im
> Gegenteil: Wir sehen, dass nicht jede kleine Variation am Korpus
> unbedingt das Optimum ändert.
> *neugierig* Um was ging es bei den gerade im Sourcecode stehenden speziellen
Kriterien?
Also sollte es zudem darauf hinaus laufen, weitere Korpora aus verschiedenen
Gebieten für unsere Zwecke aufzubereiten.

Ausserdem ist die Punktzahl mit beiden Korpussen verschieden, und zwar
> mehr als man durch blosse statistische Variationen erwarten würde.  Mit
> anderen Kriterien könnte das Optimum für die beiden Korpusse durchaus
> verschieden sein.
> Der Leipziger Korpus enthielt neben sinnlosen Zeichenfolgen auch lückenhafte
Sätze, was eindeutig auf 'dumme' Automatisierungssoftware für das Erstellen des
Korpus zurückzuführen sind. Leider verzerren Sätze aus Sport- und
Wirtschaftsteil von Zeitungen auch den modifizierten Leipziger Korpus. Allzu
häufig wiederholte Ortsnamen sowie Datumsangaben wurden dezimiert. Nicht zuletzt
dadurch weist der modifizierte Leipziger Korpus eine geringere Zeichenzahl auf.
Wenigstens weist der modifizierte Leipziger Korpus erheblich weniger Unfug auf
als der Leipziger Korpus - und Neue Rechtschreibung.

Vielen Dank für die Statistik!

Mit netten Grüßen
Karl


Antwort per Email an