Hallo allerseits,

Andreas ſchrieb am 28.12.2009 20:26 Uhr:
Um den Vorfaktor zu bekommen habe ich zwei Tastaturen […] mit verschiedenen 
Korpora bewertet und aus den Einzelergebnissen den relativen Fehler […] 
bestimmt.  Die Korpora habe ich aus dem Leipziger 1M-Korpus gewonnen,

Wenn die verglichenen Stichproben aus dem gleichen Korpus stammen, ist doch auch zu erwarten, dass sie sich nicht so sehr voneinander unterscheiden … interessanter fände ich es etwa, den 1M-Leipzig-Korpus mit einem 1M-Wikipedia-Korpus zu vergleichen.

Ansonsten dürfte unbestritten sein, dass bei selteneren Zeichen wie »αℤ ein größerer Testkorpus genauer bzw. aufschlussreicher wäre … da ist eher die Frage, ob dies für die automatische Optimierung überhaupt relevant ist oder vernachlässigt werden könnte. Aber wie soll man sonst überhaupt entscheiden, wie gut (oder schlecht?) etwa die Ellipse … angeordnet werden sollte? Von daher plädiere ich grundsätzlich eher für eine breitere Datenbasis des Neo-3-Korpuses. Und die Häufigkeiten seltenerer Zeichen mögen zwar für die Optimierung der ersten Ebene irrelevant sein, könnten aber in Hinsicht auf die Belegung der höheren Ebenen durchaus lesenswert sein.


Viele Grüße,
Dennis-ſ


PS: Und wer die Korpusfrage für vollkommen irrelevant hält, dem ſchlage ich auch weiterhin Goethes Fauſt (beide Theile) in gebrochener Originalſchreibweiſe vor ☺.


Antwort per Email an