On Monday 23 May 2011 07:18:15 Florian Janßen wrote: > Arne Babenhauserheide schrieb am 22.05.2011 um 21:44 Uhr: > > On Saturday 21 May 2011 12:25:19 Florian Janßen wrote: > >> Arne Babenhauserheide schrieb am 19.05.2011 um 08:26 Uhr: > >>> On Thursday 19 May 2011 08:16:43 Florian Janßen wrote: > >>>> Im Corus? Weniger. Die Endauswahl kann man dann ja gegen einen > >>>> rein > >>>> englischen Korpus testen. > >>> > >>> Das habe ich mit bsi/pfu gemacht. Für Englisch kam die beste > >>> gerade mal auf 1,58 für Englisch. Bei Optimierung auf Englisch > >>> alleine komme ich auq 1,20 - da liegen Welten dazwischen. > >> > >> Worauf kommst du mit QWERTY? > > > > 7,18 weil alles so doof ist wie in pfubsie y und eo > > Das belegt doch eindrucksvoll, dass eine Belegung, die auf einem rein > deutscher Korpus fußt, auch im Englischen um Welt… äh … um Galaxien > besser ist, als die Standardtastaturbelegung dieser Sprache.
Das ja, aber sie hat eben sehr unschöne Stellen. Und die fallen in einer ansonsten optimierten Belegung sehr negativ auf - anders als bei QWETRY, das einfach insgesamt unschön ist. > Wenn es nicht zu viel Arbeit macht, kannst du sagen wo Dvorak US¹ > liegt? And Dvorak # Evolved Layout ’,.py fgcrl/aoeui dhtns- ;qjkx bmwvz # 2.204216 x100 total penalty per letter # 0.033347 x10 billion total penalty compared to notime-noeffort # 5.735313 mean key position cost in file 1gramme.txt ( 0.08676893 ) # 6.374198 % finger repeats in file 2gramme.txt ( 0.0578606863091 ) # 0.027972 million keystrokes disbalance of the fingers ( 0.0111891308244 ) # 0.209172 % finger repeats top to bottom or vice versa ( 0.0064809984 ) # 1.329699 % of trigrams have no handswitching (after direction change counted x 1 ) ( 0.0064296 ) # 0.004019 billion (rows²/dist)² to cross ( 0.0803948895172 ) # 0.068436 hand disbalance. Left: 0.43156337972 %, Right: 0.56843662028 % ( 0.00621222060116 ) # 0.0 badly positioned shortcut keys (weighted). # 0.031996 no handswitching after unbalancing key (weighted). # 0.017061 movement pattern cost (weighted). # 0.002734 asymmetric bigram cost (weighted). # 0.018806 manually assigned bigram penalty (weighted) # 0.007538 unbalancing key after neighboring finger (weighted) Allerdings ist das ein Fall für „wer die Werte einfach undifferenziert als Wertung der Belegung benutzt vereinfacht unzulässig, so dass seine Aussage keine Aussagekraft mehr hat“. Was dieser Test wieder belegt ist, dass der Tipptest die einzige wirklich tragkräftige Wertung ist. Der Optimierer kann nie alle Parameter erfassen. Allerdings kann er ein paar Hinweise geben, z.B. den hier: Wie gleichmäßig ist das Tippgefühl, d.h. gibt es heftige Abweichungen? !!! Achtung: Teils etwas unleserliche Codeschnipsel. !!! QWERTZ: bäh! kosten ±1209 bei Worten, aber halt insgesamt schon so schlecht, dass das nur ±275% sind $ ./regularity_check.py -t Korpora/Gutenberg/English/4899.txt.utf8 -n Qwertz mean value and standard deviation of the layout cost: snippets of 270 letters: 911.010599495 ± 333.462596187 (36.6035912614%) words: 440.294592227 ± 1209.04850863 (274.599899697%) DVORAK: Fast Faktor 3 besser bei Schnipseln und über Faktor 2 besser bei Wörtern, aber größere relative Standardabweichung, weil die festen Werte einfach so viel besser sind. $ ./regularity_check.py -t Korpora/Gutenberg/English/4899.txt.utf8 -l "’,.py fgcrl/aoeui dhtns- ;qjkx bmwvz" mean value and standard deviation of the layout cost: snippets of 270 letters: 352.701921689 ± 244.166805772 (69.227523514%) words: 205.037967521 ± 715.448579425 (348.934681744%) PFUBSIE: etwas besser als Dvorak. Höhere relative Abweichung bei Abschnitten, absolut aber deutlich niedriger. $ ./regularity_check.py -t Korpora/Gutenberg/English/4899.txt.utf8 -l "pfuo, ßclmvqä bsie. wtrnh⇘ kyöaü gdxjz" mean value and standard deviation of the layout cost: snippets of 270 letters: 253.87993151 ± 183.484690556 (72.2722309967%) words: 175.341368632 ± 546.501984656 (311.678863304%) EASY: Das beste für genau den Korpus. Nochmal ~30% bis ~45% niedrigere Standardabweichungen. $ ./regularity_check.py -t Korpora/Gutenberg/English/4899.txt.utf8 -l "öuofk zphlwä, ieasy mtnrc⇘ .ßügx vdqjb" mean value and standard deviation of the layout cost: snippets of 270 letters: 215.04338335 ± 123.634617547 (57.4928721923%) words: 153.816528692 ± 278.440901013 (181.021443782%) Und da es mich persönlich interessiert: AdnW: $ ./regularity_check.py -t Korpora/Gutenberg/English/4899.txt.utf8 -l "kuü.ä vgcljf´ hieao dtrnsß xyö,q bpwmz" mean value and standard deviation of the layout cost: snippets of 270 letters: 314.183907189 ± 342.393928555 (108.978824415%) words: 227.746365673 ± 1716.90358917 (753.866514662%) …das ist seltsam… Der Text und der Korpus von AdnW müssen verdammt große Unterschiede haben oder die Bewertung unterscheidet sich deutlich… Es ist auch hier besser als Dvorak, aber die Abweichungen sind heftig. Ich teste nochmal gegen den Korpus von AdnW. Qwertz: snippets of 270 letters: 957.825201294 ± 422.314896543 (44.0910195276%) words: 488.000271844 ± 1272.01170344 (260.657990749%) Dvorak: snippets of 270 letters: 355.464618085 ± 197.802365471 (55.6461474384%) words: 223.55820448 ± 621.277269116 (277.904034236%) Pfubsie (nur Deutsch): snippets of 270 letters: 238.440936648 ± 108.466998756 (45.4900908712%) words: 176.257013533 ± 287.036763107 (162.851257577%) Easy (Nur Englisch): snippets of 270 letters: 250.987728546 ± 165.050594115 (65.7604238546%) words: 182.363915564 ± 390.392453455 (214.073300767%) AdnW: snippets of 270 letters: 278.504827291 ± 204.224877078 (73.3290259507%) words: 224.829276972 ± 1447.6902046 (643.906444966%) …hm… Das Ergebnis sagt aus, dass es viele Wörter gibt, die sich mit AdnW extrem schlecht tippen lassen (mehr als bei Pfubsie), dass es im allgemeinen aber so gut ist wie Dvorak (nach der Wertung von meinem Optimierer; mit dem von Andreas sieht es sicher anders aus!). Für mich ist das extrem überraschend. Ich hätte bei AdnW eine viel größere Regelmäßigkeit erwartet, erst recht nach den Lobliedern, die manche AdnW- Nutzer darauf singen. Interessant ist auch, dass AdnW bei kleineren Abschnitten gegen den rein englischen Korpus besser abschneidet als gegen den, den mir Andreas mal weitergegeben hat (beim Gesamttext ist es gegen den AdnW-Korpus allerdings wieder besser als gegen den rein Englischen). > Eine Fremdsprache im Korpus geht automatisch zu Lasten der deutschen > Sprachen und da bin ich dagegen. Wieviel 30-40% Englisch für den deutschen Korpus ausmacht, ist noch völlig unklar. Das wurde noch nicht getestet. Habe ich vor zu machen, dauert aber etwas. Ich weiß jetzt auf jeden Fall, dass eine Verschlechterung durch den Korpus um 0.3 tppl zu viel ist (entspricht etwa 30-40 Punkten hier). Liebe Grüße, Arne -- singing a part of the history of free software: - http://infinite-hands.draketo.de
signature.asc
Description: This is a digitally signed message part.