> interessanter fände ich es etwa, den 1M-Leipzig-Korpus mit einem
> 1M-Wikipedia-Korpus zu vergleichen.
Dann bekommt man allenfalls eine Aussage über den systematischen Fehler
und erfährt nichts über den statistischen Fehler. Der systematische
Fehler hat nichts mit der Korpusgröße zu tun, sondern mit der geeigneten
Auswahl der Quellen. Das ist wichtiges, aber ein anderes Thema.
> Ansonsten dürfte unbestritten sein, dass bei selteneren Zeichen wie »αℤ ein
> größerer Testkorpus genauer bzw. aufschlussreicher wäre … da ist eher die
> Frage, ob dies für die automatische Optimierung überhaupt relevant ist oder
> vernachlässigt werden könnte.
Wenn ein Zeichen wirklich selten ist spielt es automatisch in der
Gesamtwertung kaum keine Rolle, zumindest wenn man ein in den
Häufigkeiten lineares Beurteilungsschema verwendet.
Mit Sonderzeichen gibt noch ein ersteres Problem als die Statistik: Die
Häufigkeiten sind stark von der Quelle abhängig. Zum Beispiel gibt es
im Leipziger Korpus recht viele geraden Anführungszeichen ("), die
anstelle typographisch korrekter Anführungszeichen benutzt werden.
Würden wir das Neo-Mailinglisten-Archiv als Quelle benutzen wäre das
anders. Bei Exoten wie ℤ muss man sogar sicherstellen, dass statt des
eigentlichen Zeichens nicht ein Bildchen verwendet wird; bei Mathematik
auf dem Web ist das immer noch üblich.
Vor dem Problem der Korpusgröße steht bei Sonderzeichen, insbesondere
seltenen, also das Problem der Quellenauswahl und allfälliger manueller
Nachbesserung. Auch ein 3G Leipziger Korpus würde hier nichts helfen,
sondern im Gegenteil nur die manuelle Nachbesserung erschweren.
Andreas