> *neugierig* Um was ging es bei den gerade im Sourcecode stehenden speziellen > Kriterien?
Entschuldige, «speziell» war nicht das rechte Wort. Ich bin einfach nicht so fleissig wie Arne, das Feedback aus der Liste einzubauen, und drehe ab und an den Kriterien. In zwei Wochen käme wahrscheinlich ein anderes Optimum raus, das ist, was ich sagen wollte. > Also sollte es zudem darauf hinaus laufen, weitere Korpora aus verschiedenen > Gebieten für unsere Zwecke aufzubereiten. Vielleicht. Ich habe mir zum Beispiel einen kleinen (600k) Korpus aus einer Archiv-DVD der Computerzeitschrift c't extrahiert (auch in neuer Rechtschreibung). In dem kommt dann zum Beispiel, im Gegensatz zum Leipziger Korpus, das Komma häufiger vor als der Punkt. Aber alles in allem sind die Auswirkungen auf das Ergebnis moderat. Wenn man einen sehr kleinen Korpus mit einem sehr grossen mischt und so gewichtet, dass beide ungefähr gleich in die Optimierung eingehen, bestimmt der kleine Korpus leider den statistischen Fehler. Es dürfte schwer sein, Korpusse aus anderen Gebieten zu finden, die so gross wie der Leipziger Korpus sind (von jemandem, der sie entrümpelt, ganz zu schweigen). Im übrigen würde ich sowieso nach einem 1:1 gemischt deutsch-englischen Korpus optimieren. Das entspricht viel mehr meinen Anforderungen, und da bin ich sicher nicht alleine. Andreas