Hallo allerseits,
Andreas ſchrieb am 28.12.2009 20:26 Uhr:
Um den Vorfaktor zu bekommen habe ich zwei Tastaturen […] mit verschiedenen
Korpora bewertet und aus den Einzelergebnissen den relativen Fehler […]
bestimmt. Die Korpora habe ich aus dem Leipziger 1M-Korpus gewonnen,
Wenn die verglichenen Stichproben aus dem gleichen Korpus stammen, ist
doch auch zu erwarten, dass sie sich nicht so sehr voneinander
unterscheiden … interessanter fände ich es etwa, den 1M-Leipzig-Korpus
mit einem 1M-Wikipedia-Korpus zu vergleichen.
Ansonsten dürfte unbestritten sein, dass bei selteneren Zeichen wie »αℤ
ein größerer Testkorpus genauer bzw. aufschlussreicher wäre … da ist
eher die Frage, ob dies für die automatische Optimierung überhaupt
relevant ist oder vernachlässigt werden könnte. Aber wie soll man sonst
überhaupt entscheiden, wie gut (oder schlecht?) etwa die Ellipse …
angeordnet werden sollte? Von daher plädiere ich grundsätzlich eher für
eine breitere Datenbasis des Neo-3-Korpuses. Und die Häufigkeiten
seltenerer Zeichen mögen zwar für die Optimierung der ersten Ebene
irrelevant sein, könnten aber in Hinsicht auf die Belegung der höheren
Ebenen durchaus lesenswert sein.
Viele Grüße,
Dennis-ſ
PS: Und wer die Korpusfrage für vollkommen irrelevant hält, dem ſchlage
ich auch weiterhin Goethes Fauſt (beide Theile) in gebrochener
Originalſchreibweiſe vor ☺.