Re: [Neo] Wir brauchen den echten Korpus

Arne Babenhauserheide Mon, 30 May 2011 08:35:44 -0700

On Monday 23 May 2011 07:18:15 Florian Janßen wrote:
> Arne Babenhauserheide schrieb am 22.05.2011 um 21:44 Uhr:
> > On Saturday 21 May 2011 12:25:19 Florian Janßen wrote:
> >> Arne Babenhauserheide schrieb am 19.05.2011 um 08:26 Uhr:
> >>> On Thursday 19 May 2011 08:16:43 Florian Janßen wrote:
> >>>> Im Corus? Weniger. Die Endauswahl kann man dann ja gegen einen
> >>>> rein
> >>>> englischen Korpus testen.
> >>>
> >>> Das habe ich mit bsi/pfu gemacht. Für Englisch kam die beste
> >>> gerade mal auf 1,58 für Englisch. Bei Optimierung auf Englisch
> >>> alleine komme ich auq 1,20 - da liegen Welten dazwischen.
> >>
> >> Worauf kommst du mit QWERTY?
> >
> > 7,18 weil alles so doof ist wie in pfubsie y und eo
>
> Das belegt doch eindrucksvoll, dass eine Belegung, die auf einem rein
> deutscher Korpus fußt, auch im Englischen um Welt… äh … um Galaxien
> besser ist, als die Standardtastaturbelegung dieser Sprache.


Das ja, aber sie hat eben sehr unschöne Stellen. Und die fallen in einer
ansonsten optimierten Belegung sehr negativ auf - anders als bei QWETRY, das
einfach insgesamt unschön ist.

> Wenn es nicht zu viel Arbeit macht, kannst du sagen wo Dvorak US¹
> liegt?

And Dvorak

# Evolved Layout
’,.py fgcrl/aoeui dhtns-
;qjkx bmwvz

# 2.204216 x100 total penalty per letter
# 0.033347 x10 billion total penalty compared to notime-noeffort
# 5.735313 mean key position cost in file 1gramme.txt ( 0.08676893 )
# 6.374198 % finger repeats in file 2gramme.txt ( 0.0578606863091 )
# 0.027972 million keystrokes disbalance of the fingers ( 0.0111891308244 )
# 0.209172 % finger repeats top to bottom or vice versa ( 0.0064809984 )
# 1.329699 % of trigrams have no handswitching (after direction change counted
x 1 ) ( 0.0064296 )
# 0.004019 billion (rows²/dist)² to cross ( 0.0803948895172 )
# 0.068436 hand disbalance. Left: 0.43156337972 %, Right: 0.56843662028 % (
0.00621222060116 )
# 0.0 badly positioned shortcut keys (weighted).
# 0.031996 no handswitching after unbalancing key (weighted).
# 0.017061 movement pattern cost (weighted).
# 0.002734 asymmetric bigram cost (weighted).
# 0.018806 manually assigned bigram penalty (weighted)
# 0.007538 unbalancing key after neighboring finger (weighted)


Allerdings ist das ein Fall für „wer die Werte einfach undifferenziert als
Wertung der Belegung benutzt vereinfacht unzulässig, so dass seine Aussage
keine Aussagekraft mehr hat“.

Was dieser Test wieder belegt ist, dass der Tipptest die einzige wirklich
tragkräftige Wertung ist. Der Optimierer kann nie alle Parameter erfassen.

Allerdings kann er ein paar Hinweise geben, z.B. den hier: Wie gleichmäßig ist
das Tippgefühl, d.h. gibt es heftige Abweichungen?


!!! Achtung: Teils etwas unleserliche Codeschnipsel. !!!


QWERTZ: bäh! kosten ±1209 bei Worten, aber halt insgesamt schon so schlecht,
dass das nur ±275% sind

$ ./regularity_check.py  -t Korpora/Gutenberg/English/4899.txt.utf8  -n Qwertz

mean value and standard deviation of the layout cost:
snippets of 270 letters: 911.010599495 ± 333.462596187 (36.6035912614%)
words: 440.294592227 ± 1209.04850863 (274.599899697%)


DVORAK: Fast Faktor 3 besser bei Schnipseln und über Faktor 2 besser bei
Wörtern, aber größere relative Standardabweichung, weil die festen Werte
einfach so viel besser sind.

$ ./regularity_check.py  -t Korpora/Gutenberg/English/4899.txt.utf8  -l "’,.py
fgcrl/aoeui dhtns-
;qjkx bmwvz"

mean value and standard deviation of the layout cost:
snippets of 270 letters: 352.701921689 ± 244.166805772 (69.227523514%)
words: 205.037967521 ± 715.448579425 (348.934681744%)


PFUBSIE: etwas besser als Dvorak. Höhere relative Abweichung bei Abschnitten,
absolut aber deutlich niedriger.

$ ./regularity_check.py  -t Korpora/Gutenberg/English/4899.txt.utf8  -l "pfuo,
ßclmvqä
bsie. wtrnh⇘
kyöaü gdxjz"

mean value and standard deviation of the layout cost:
snippets of 270 letters: 253.87993151 ± 183.484690556 (72.2722309967%)
words: 175.341368632 ± 546.501984656 (311.678863304%)


EASY: Das beste für genau den Korpus. Nochmal ~30% bis ~45% niedrigere
Standardabweichungen.

$ ./regularity_check.py  -t Korpora/Gutenberg/English/4899.txt.utf8  -l "öuofk
zphlwä,
ieasy mtnrc⇘
.ßügx vdqjb"

mean value and standard deviation of the layout cost:
snippets of 270 letters: 215.04338335 ± 123.634617547 (57.4928721923%)
words: 153.816528692 ± 278.440901013 (181.021443782%)


Und da es mich persönlich interessiert: AdnW:

$ ./regularity_check.py  -t Korpora/Gutenberg/English/4899.txt.utf8  -l "kuü.ä
vgcljf´
hieao dtrnsß
xyö,q bpwmz"

mean value and standard deviation of the layout cost:
snippets of 270 letters: 314.183907189 ± 342.393928555 (108.978824415%)
words: 227.746365673 ± 1716.90358917 (753.866514662%)


…das ist seltsam… Der Text und der Korpus von AdnW müssen verdammt große
Unterschiede haben oder die Bewertung unterscheidet sich deutlich…

Es ist auch hier besser als Dvorak, aber die Abweichungen sind heftig. Ich
teste nochmal gegen den Korpus von AdnW.


Qwertz:
snippets of 270 letters: 957.825201294 ± 422.314896543 (44.0910195276%)
words: 488.000271844 ± 1272.01170344 (260.657990749%)

Dvorak:
snippets of 270 letters: 355.464618085 ± 197.802365471 (55.6461474384%)
words: 223.55820448 ± 621.277269116 (277.904034236%)

Pfubsie (nur Deutsch):
snippets of 270 letters: 238.440936648 ± 108.466998756 (45.4900908712%)
words: 176.257013533 ± 287.036763107 (162.851257577%)

Easy (Nur Englisch):
snippets of 270 letters: 250.987728546 ± 165.050594115 (65.7604238546%)
words: 182.363915564 ± 390.392453455 (214.073300767%)

AdnW:
snippets of 270 letters: 278.504827291 ± 204.224877078 (73.3290259507%)
words: 224.829276972 ± 1447.6902046 (643.906444966%)


…hm…

Das Ergebnis sagt aus, dass es viele Wörter gibt, die sich mit AdnW extrem
schlecht tippen lassen (mehr als bei Pfubsie), dass es im allgemeinen aber so
gut ist wie Dvorak (nach der Wertung von meinem Optimierer; mit dem von
Andreas sieht es sicher anders aus!).

Für mich ist das extrem überraschend. Ich hätte bei AdnW eine viel größere
Regelmäßigkeit erwartet, erst recht nach den Lobliedern, die manche AdnW-
Nutzer darauf singen.

Interessant ist auch, dass AdnW bei kleineren Abschnitten gegen den rein
englischen Korpus besser abschneidet als gegen den, den mir Andreas mal
weitergegeben hat (beim Gesamttext ist es gegen den AdnW-Korpus allerdings
wieder besser als gegen den rein Englischen).

> Eine Fremdsprache im Korpus geht automatisch zu Lasten der deutschen
> Sprachen und da bin ich dagegen.

Wieviel 30-40% Englisch für den deutschen Korpus ausmacht, ist noch völlig
unklar. Das wurde noch nicht getestet. Habe ich vor zu machen, dauert aber
etwas.

Ich weiß jetzt auf jeden Fall, dass eine Verschlechterung durch den Korpus um
0.3 tppl zu viel ist (entspricht etwa 30-40 Punkten hier).

Liebe Grüße,
Arne
--
singing a part of the history of free software:

- http://infinite-hands.draketo.de

signature.asc
Description: This is a digitally signed message part.

Re: [Neo] Wir brauchen den echten Korpus

Antwort per Email an