> *neugierig* Um was ging es bei den gerade im Sourcecode stehenden speziellen 
> Kriterien?

Entschuldige, «speziell» war nicht das rechte Wort.  Ich bin einfach
nicht so fleissig wie Arne, das Feedback aus der Liste einzubauen, und
drehe ab und an den Kriterien.  In zwei Wochen käme wahrscheinlich ein
anderes Optimum raus, das ist, was ich sagen wollte.

> Also sollte es zudem darauf hinaus laufen, weitere Korpora aus verschiedenen
> Gebieten für unsere Zwecke aufzubereiten.

Vielleicht.  Ich habe mir zum Beispiel einen kleinen (600k) Korpus aus
einer Archiv-DVD der Computerzeitschrift c't extrahiert (auch in neuer
Rechtschreibung).  In dem kommt dann zum Beispiel, im Gegensatz zum
Leipziger Korpus, das Komma häufiger vor als der Punkt.  Aber alles in
allem sind die Auswirkungen auf das Ergebnis moderat.

Wenn man einen sehr kleinen Korpus mit einem sehr grossen mischt und so
gewichtet, dass beide ungefähr gleich in die Optimierung eingehen,
bestimmt der kleine Korpus leider den statistischen Fehler.  Es dürfte
schwer sein, Korpusse aus anderen Gebieten zu finden, die so gross wie
der Leipziger Korpus sind (von jemandem, der sie entrümpelt, ganz zu
schweigen).

Im übrigen würde ich sowieso nach einem 1:1 gemischt deutsch-englischen
Korpus optimieren.  Das entspricht viel mehr meinen Anforderungen, und
da bin ich sicher nicht alleine.

Andreas

Antwort per Email an