Re: [Neo] Wir brauchen den echten Korpus
On 31.05.2011 19:18, Arne Babenhauserheide wrote: Hast du einen Link zu der Untersuchung? *auchhabenwill* :) Peter
Re: [Neo] Wir brauchen den echten Korpus
Am 31.05.2011 19:10, schrieb Arne Babenhauserheide: > Als Vergleich: Qwertz hat eine Standardabweichung bei Wörtern von über 1200, > AdnW kommt über 1400, und Qwertz hat so Monster wie „zerfasert“ und > „gesondert“. solche offensichtlichen Monster sind mir aber bei AdNW noch nicht begegnet, irgendwas kann da immer noch nicht stimmen ??? Grüße Wolf signature.asc Description: OpenPGP digital signature
Re: [Neo] Wir brauchen den echten Korpus
On Tuesday 31 May 2011 19:06:23 Wolf-Heider Rein wrote: > Wahrscheinlich (?) genügen für eine ausreichend aussagefähige Analyse die > tausend (?) häufigsten Wörter einer Sprache. Das verzerrt die Belegung deutlich (weil bestimmte Übergängeplötzlich völlig ignoriert werden und der Optimierer sie fast automatisch extrem schlechten Bewegungen zuweist, um Platz für die anderen zu machen). Also müssten wir einen kompletten Korpus mit Hilfe eines Wörterbuches gewichten. Es gibt NLTK, das könnte das vielleicht (natural language toolkit). Das könnte allerdings recht viel Arbeit sein. Hast du einen Link zu der Untersuchung? Liebe Grüße, Arne -- singing a part of the history of free software: - http://infinite-hands.draketo.de signature.asc Description: This is a digitally signed message part.
Re: [Neo] Wir brauchen den echten Korpus
On Tuesday 31 May 2011 18:12:15 Wolf Belschner wrote: > Eine niedrigere Standardabweichung heisst dann aber nur, dass die > Aufgaben die der Gesamtkorpus stellt gleichmäßiger zu bewältigen sind, > aber nicht unbedingt, dass das auch tatsächlich besser ist was die > allgemeine Tippbarkeit betrifft. Die Standardabweichung bei Wörtern kann auf etwa ⅕ der Abweichung bei AdnW gedrückt werden. Bei 270 Zeichen auf die Hälfte. Und das finde ich doch recht heftig. Für die allgemeine Tippbarkeit dürfte das bedeuten, dass es weniger Brüche im Tippfluss gibt, und weniger starke. Das sehe ich persönlich als sehr wichtig an (sonst hätte ich das Skript zum Testen der Standardabweichung nicht schon letztes Jahr geschrieben :) ). Die Belegung dürfte schneller zu lernen und entspannter zu tippen sein. Als Vergleich: Qwertz hat eine Standardabweichung bei Wörtern von über 1200, AdnW kommt über 1400, und Qwertz hat so Monster wie „zerfasert“ und „gesondert“. Der Test hätte uns übrigens vor der Schwäche von Pfubsie gewarnt: Beim Englischen Text hatte es eine Standardabweichung bei Wörtern von über 500, während “easy” auf knapp 280 kam. Das ist fast Faktor 2 (y scheint da heftig zuzuschlagen :) ). Pfubsie: snippets of 270 letters: 253.87993151 ± 183.484690556 (72.2722309967%) words: 175.341368632 ± 546.501984656 (311.678863304%) Easy: snippets of 270 letters: 215.04338335 ± 123.634617547 (57.4928721923%) words: 153.816528692 ± 278.440901013 (181.021443782%) Nebenbei: Jemand wollte mal ein gutes Layout nur für Englisch. Da wäre easy ein Beispiel (allerdings nur für englische Prosa, nicht für code oder die shell): http://draketo.de/dateien/layouts/easy-adnw.png http://draketo.de/dateien/layouts/easy-adnw.svg http://draketo.de/dateien/layouts/easy-gutt.png http://draketo.de/dateien/layouts/easy-gutt.svg Liebe Grüße, Arne -- 1w6 sie zu achten, sie alle zu finden, in Spiele zu leiten und sacht zu verbinden. → http://1w6.org signature.asc Description: This is a digitally signed message part.
Re: [Neo] Wir brauchen den echten Korpus
Bei der Belegung einer Tastatur bin ich zu der Überzeugung gekommen, dass man dafür NICHT ALLE Buchstabenfolgen betrachten und bewerten sollte, sondern nur die Buchstabenfolgen innerhalb einer Silbe. Diese Ansicht beruht auf einer Untersuchung über die Steuerung der Sprachmotorik, die ich gelesen habe. Die Versuchspersonen haben Texte a) mit einem Stift auf Papier und b) mit einer Tastatur geschrieben. Der Ablauf der manuellen Bewegungen wurde elektronisch erfasst. In diesen Texten kamen beispielsweise die drei Wörter “Kind" - "Linde - "hindurch“ vor. Die Analyse ergab, dass unabhängig von der individuellen Schreibgeschwindigkeit und von der Schreibmethode (Bleistift/Tastatur) die Zeitabstände zwischen gleichen Buchstabenpaaren in den Texten nicht gleich war. Zum Beispiel: Der Zeitabstand zwischen den Buchstaben "n" und "d" war bei dem Wort "Kind" am kleinsten, bei "Linde" war er ca. 20 Prozent größer, und bei "hindurch" war er ungefähr doppelt so groß. Das Sprachzentrum im Gehirn steuert die Schreibbewegungen demnach nicht mit einer konstanten Buchstabengeschwindigkeit, sondern innerhalb einer Silbe schneller als an den Silbengrenzen. Bei einer Belegung kommt es demnach darauf an, dass die Buchstabenfolgen innerhalb einer Silbe griffgünstig liegen. An den Silbengrenzen spielt die Griffgünstigkeit eine geringere Rolle. Deshalb erscheint es mir sinnvoll, die Griffgünstigkeit anhand der tausend bis zehntausend häufigsten Wörter zu analysieren. Die Rangliste der häufigsten Wörter besteht überwiegend aus sehr kurzen Wörtern, bei denen die Buchstabenfolgen an den Silbengrenzen einen geringeren Anteil haben als bei einem Mix, der viele seltenere (und damit längere) Wörter enthält. Wahrscheinlich (?) genügen für eine ausreichend aussagefähige Analyse die tausend (?) häufigsten Wörter einer Sprache. Bei der Belegung der Tasten für eine Einhandtastatur habe ich insbesondere die Buchstabenfolgen beachtet, die an den Wortenden der flektierten Wörter auftreten. Diese Silben sind meistens unbetont, und sollten sich mit flotten Bewegungen anfügen lassen. Wolf-Heider Rein Am 31.05.2011 um 16:07 schrieb Arne Babenhauserheide: > On Tuesday 31 May 2011 11:40:08 Wolf Belschner wrote: >>> Für mich ist das extrem überraschend. Ich hätte bei AdnW eine viel >>> größere Regelmäßigkeit erwartet, erst recht nach den Lobliedern, die >>> manche AdnW- Nutzer darauf singen. >> >> Wenn ich genau darüber nachdenke finde ich es jetzt nicht so >> überraschend. Was mir bei AdNW schon auffällt ist, dass es trotz >> leichter Lernbarkeit relativ lange dauert, das Tippen wirklich rund zu >> kriegen, geschuldet der Tatsache, dass sich viele alltägliche Worte >> sozusagen hirnlos vollautomatisch tippen, dazwischen aber für >> speziellere Worte oft deutlich mehr Aufmerksamkeit aufgebracht werden >> muss. > > Dann passt das Ergebnis anscheinend doch… > > Das erklärt auch, warum AdnW bei mir nur so gut wie Dvorak abschneidet: > Seltene Worte werden vermutlich bei mir anders gewertet als bei Andreas. > > Wenn sie rausgerechnet werden, dürfte AdnW deutlich besser abschneiden, > allerdings halt nur für eine Teilmenge der Tipparbeit. > > Ein Grund dafür drfte sein, dass der Optimierer von AdnW bestimmte Bewegungen > als gut bewertet, die meiner als absolut grausig sieht (es gibt einige > Bigramme, die alleine schon Kosten von 4000 Strafpunkten einfahren, also 2000 > pro Zeichen, und es gibt auch ein paar ganz verbotene, die *richtig* weh tun… > > | Komplexere Wörter bereiten oft mehr Schwierigkeiten, wobei ich das nicht > mehr so empfinde, auch ‚Psychologie‘ lässt sich noch relativ gut bewältigen > aber es bremst etwas aus. > > Hundertprozentig lässt sich das nicht entfernen, aber ich hoffe, dass es sich > deutlich reduzieren lässt. > > Das Problem bei den Vergleichen ist das gleiche wie bei dem Vergleich Neo > gegen Qwertz: Das was man kennt, läuft gut. Wenn dich die Problemwörter bei > AdnW oft genug genervt haben, laufen sie automatisch und fallen nicht mehr > auf. Bei einer neuen Belegung gibt es immer Problemwörter, die du noch nicht > drin hast und die deswegen stören. > > -- > Konstruktive Kritik: > > - http://draketo.de/licht/krude-ideen/konstruktive-kritik >
Re: [Neo] Wir brauchen den echten Korpus
Am 31.05.2011 16:07, schrieb Arne Babenhauserheide: > Ein Grund dafür drfte sein, dass der Optimierer von AdnW bestimmte Bewegungen > als gut bewertet, die meiner als absolut grausig sieht (es gibt einige > Bigramme, die alleine schon Kosten von 4000 Strafpunkten einfahren, also 2000 > pro Zeichen, und es gibt auch ein paar ganz verbotene, die *richtig* weh tun… > > | Komplexere Wörter bereiten oft mehr Schwierigkeiten, wobei ich das nicht > mehr so empfinde, auch ‚Psychologie‘ lässt sich noch relativ gut bewältigen > aber es bremst etwas aus. > > Hundertprozentig lässt sich das nicht entfernen, aber ich hoffe, dass es sich > deutlich reduzieren lässt. Das lässt sich sicher nicht entfernen und ich denke auch nur reduzieren auf Kosten einer allgemeinen Tippbarkeit. Es sind immer noch 32 Buchstaben auf die gleichen 32 Tasten zu verteilen, das heisst, je nach Korpus lässt sich das sicher in die eine oder andere Richtung beeinflussen. Die besonderen Wörter wird man immer besonders lernen müssen. Eine niedrigere Standardabweichung heisst dann aber nur, dass die Aufgaben die der Gesamtkorpus stellt gleichmäßiger zu bewältigen sind, aber nicht unbedingt, dass das auch tatsächlich besser ist was die allgemeine Tippbarkeit betrifft. Angenommen als Extrembeispiel: Man könnte einen extremen Korpus mit medizinischen Texten nehmen oder auch eine Programmiersprache und eine Belegung ermitteln mit der sich dies gut und smooth und ohne allzu große Standardabweichung bewältigen lässt, die dann aber schon beim Tippen einer normalen Mail sich hakelig verhält. Vielleicht ein Hinweis darauf den Korpus nicht mit zuvielen Spezialgebieten zu belasten, sowohl was Sprachen, als auch besondere Wortschätze betrifft. Gruß Wolf signature.asc Description: OpenPGP digital signature
[Neo] Auswertung von Pascals Umfrage
Hi, Ich habe die Umfrage etwas ausgewertet. https://bitbucket.org/ArneBab/evolve-keyboard- layout/raw/bca091c1f93c/empirie/2011-05-30-tastenkosten-umfrage.csv https://bitbucket.org/ArneBab/evolve-keyboard- layout/raw/bca091c1f93c/empirie/2011-05-30-tastenkosten-umfrage.txt Wichtigster Inhalt: 5 5 3 3 8 8 4 2 7 7 6 5 5 7 4 5 2 2 7 7 5 1 5 5 3 3 4 7.5 2 4 1 2 6 6 3 1 2 2 2 2 3 3 2 5 1 1 5 6 2 1 3 3 3 3 3 4 4 6 2 1 8 7 3 2 7 7 5 4 2 3 7 9 7 5 9 8 4 4 9 9 8 9 5 3.5 2 6 4 1 5 6 3 1 3 3 4 5 3 3 2 4 3 2 6 6 2 1 2 2 2 2 3 2 4 5 2 2 7 7 2 1 5 5 3 3 4 6 5 6 2 3 8 8 4 2 7 7 6 5 3 9 7 5 3 4 8.5 9 4 3 8 8 8 7 4 5 1 1 0 0 3 1 2 0 1 1 1 1 1 0.5 0 1 0 0 2 0 3 0 0 0 0 0 0 0 0 0 0 0 1 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 4 4 2 1 2 4 2 1 3 3 2 1 2 0.8 4 4 1 1 2 4 2 1 3 3 2 1 2 0.7 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 0 1 0 0 2 0 2 0 0 0 0 1 0 0.5 1 1 0 0 3 1 2 0 1 1 1 1 1 1.5 6 3 3 3 4 6 4 2 5 5 3 2 2 7 5 3 7 8 7 7 6 1 7 7 3 5 3 5 5 5 9 6 6 7 7 1 7 7 5 6 4 4.5 8 9 8 6 5 6 2 1 7 7 6 7 2 3.5 4 4 4 4 4 6 4 1 4 4 3 3 1 3.5 9 8 5 9 9 8 7 1 9 9 7 5 3 4 5 5 3 4 8 6 5 4 4 4 5 3 1 4 3 5 4 4 4 6 1 1 4 4 2 2 3 3 4 6 2 6 5 7 3 1 5 5 4 6 2 2.5 4 7 2 6 6 7 4 1 6 6 4 7 2 6 4 5 2 8 8 8 5 2 5 5 4 6 1 7 Daraus berechnet: (1) Normiert auf Neo 2 B = 4.5 (2) bzw. p = 3.5 (3) bzw. Mittelwert von beiden (4) Mittelwert mal 5 (z etwa 30). (1)array([[ 6.58928571, 5.21785714, 3.35892857, 3.65089286, 4.74642857, 8.3625, 4.29910714, 3.42857143, 4.90446429, 6.06428571, 6.97366071, 1.125 , 0.3375, 0.16875 , 0.06428571, 2.7375, 2.62232143, 0.06428571, 0.10446429, 0.42053571, 1.20535714, 4.45714286, 6.24910714, 6.97232143, 6.34821429, 3.84375 , 7.39017857, 4.5 , 4.08214286, 4.73571429, 5.45357143, 5.25535714], (2) [ 6.125 , 4.76488095, 3.17261905, 3.41071429, 4.63095238, 7.9375, 3.90178571, 3.16369048, 4.4702381 , 5.76785714, 6.70089286, 1.05654762, 0.375 , 0.1875, 0.0625, 2.53630952, 2.4667, 0.0625, 0.125 , 0.43154762, 1.12797619, 4.22916667, 5.44047619, 6.0297619 , 5.5833, 3.5 , 6.68154762, 4.82738095, 3.61011905, 4.30357143, 4.94940476, 5.0417]]) (3) scipy.mean(scipy.array(g), 0) array([ 6.35714286, 4.99136905, 3.26577381, 3.53080357, 4.68869048, 8.15 , 4.10044643, 3.29613095, 4.68735119, 5.91607143, 6.83727679, 1.09077381, 0.35625 , 0.178125 , 0.06339286, 2.63690476, 2.54449405, 0.06339286, 0.11473214, 0.42604167, 1.1667, 4.34315476, 5.84479167, 6.50104167, 5.96577381, 3.671875 , 7.0358631 , 4.66369048, 3.84613095, 4.51964286, 5.2014881 , 5.1485119 ]) scipy.std(scipy.array(g), 0) array([ 4.02660283, 3.38466199, 2.56940764, 2.58851824, 1.89819739, 3.99284198, 2.60107318, 2.5542067 , 3.40353845, 2.45698654, 3.09640839, 1.01032361, 0.76373948, 0.47980854, 0.2285662 , 1.71020213, 1.75765079, 0.2285662 , 0.28283884, 0.62812253, 1.00533701, 1.63336416, 2.48836364, 3.27096439, 2.40516244, 0.57725079, 2.27528536, 1.37963363, 2.48118638, 1.81044265, 1.9497867 , 1.59964081]) Werte: 6 5 3 4 5 8 4 3 5 6 7 1 0 0 0 3 3 0 0 0 1 4 6 7 6 4 7 5 4 5 5 5 Abweichung: 4 3 3 3 2 4 3 3 3 2 3 1 1 0 0 2 2 0 0 1 1 2 2 3 2 1 2 1 2 2 2 2 (4) (das hier kann in den Optimierer) scipy.mean(scipy.array(g), 0)*5 array([ 31.78571429, 24.95684524, 16.32886905, 17.65401786, 23.44345238, 40.75 , 20.50223214, 16.48065476, 23.43675595, 29.58035714, 34.18638393, 5.45386905, 1.78125 , 0.890625 , 0.31696429, 13.18452381, 12.72247024, 0.31696429, 0.57366071, 2.13020833, 5.8333, 21.71577381, 29.22395833, 32.50520833, 29.82886905, 18.359375 , 35.17931548, 23.31845238, 19.23065476, 22.59821429, 26.00744048, 25.74255952]) scipy.std(scipy.array(g), 0)*5 array([ 20.13301414, 16.92330995, 12.84703818, 12.94259122, 9.49098697, 19.96420
Re: [Neo] Wir brauchen den echten Korpus
On Tuesday 31 May 2011 11:40:08 Wolf Belschner wrote: > > Für mich ist das extrem überraschend. Ich hätte bei AdnW eine viel > > größere Regelmäßigkeit erwartet, erst recht nach den Lobliedern, die > > manche AdnW- Nutzer darauf singen. > > Wenn ich genau darüber nachdenke finde ich es jetzt nicht so > überraschend. Was mir bei AdNW schon auffällt ist, dass es trotz > leichter Lernbarkeit relativ lange dauert, das Tippen wirklich rund zu > kriegen, geschuldet der Tatsache, dass sich viele alltägliche Worte > sozusagen hirnlos vollautomatisch tippen, dazwischen aber für > speziellere Worte oft deutlich mehr Aufmerksamkeit aufgebracht werden > muss. Dann passt das Ergebnis anscheinend doch… Das erklärt auch, warum AdnW bei mir nur so gut wie Dvorak abschneidet: Seltene Worte werden vermutlich bei mir anders gewertet als bei Andreas. Wenn sie rausgerechnet werden, dürfte AdnW deutlich besser abschneiden, allerdings halt nur für eine Teilmenge der Tipparbeit. Ein Grund dafür drfte sein, dass der Optimierer von AdnW bestimmte Bewegungen als gut bewertet, die meiner als absolut grausig sieht (es gibt einige Bigramme, die alleine schon Kosten von 4000 Strafpunkten einfahren, also 2000 pro Zeichen, und es gibt auch ein paar ganz verbotene, die *richtig* weh tun… | Komplexere Wörter bereiten oft mehr Schwierigkeiten, wobei ich das nicht mehr so empfinde, auch ‚Psychologie‘ lässt sich noch relativ gut bewältigen aber es bremst etwas aus. Hundertprozentig lässt sich das nicht entfernen, aber ich hoffe, dass es sich deutlich reduzieren lässt. Das Problem bei den Vergleichen ist das gleiche wie bei dem Vergleich Neo gegen Qwertz: Das was man kennt, läuft gut. Wenn dich die Problemwörter bei AdnW oft genug genervt haben, laufen sie automatisch und fallen nicht mehr auf. Bei einer neuen Belegung gibt es immer Problemwörter, die du noch nicht drin hast und die deswegen stören. -- Konstruktive Kritik: - http://draketo.de/licht/krude-ideen/konstruktive-kritik signature.asc Description: This is a digitally signed message part.
Re: [Neo] Wir brauchen den echten Korpus
Am 30.05.2011 17:35, schrieb Arne Babenhauserheide: > Qwertz: > snippets of 270 letters: 957.825201294 ± 422.314896543 (44.0910195276%) > words: 488.000271844 ± 1272.01170344 (260.657990749%) > > Dvorak: > snippets of 270 letters: 355.464618085 ± 197.802365471 (55.6461474384%) > words: 223.55820448 ± 621.277269116 (277.904034236%) > > Pfubsie (nur Deutsch): > snippets of 270 letters: 238.440936648 ± 108.466998756 (45.4900908712%) > words: 176.257013533 ± 287.036763107 (162.851257577%) > > Easy (Nur Englisch): > snippets of 270 letters: 250.987728546 ± 165.050594115 (65.7604238546%) > words: 182.363915564 ± 390.392453455 (214.073300767%) > > AdnW: > snippets of 270 letters: 278.504827291 ± 204.224877078 (73.3290259507%) > words: 224.829276972 ± 1447.6902046 (643.906444966%) > > > …hm… > > Das Ergebnis sagt aus, dass es viele Wörter gibt, die sich mit AdnW extrem > schlecht tippen lassen (mehr als bei Pfubsie), dass es im allgemeinen aber so > gut ist wie Dvorak (nach der Wertung von meinem Optimierer; mit dem von > Andreas sieht es sicher anders aus!). Das heißt aber auch im Umkehrschluss, dass es eine Menge Wörter gibt, die sich damit extrem gut tippen lassen (immer nach den Kriterien deines Optimierers) Es fällt mir beim täglichen Schreiben nicht mehr so auf, aber wenn ich darüber nachdenke hat das auch eine gewisse Richtigkeit. Es gibt eine Menge Wörter die sich mit AdNW sozusagen von alleine tippen, sie fallen einfach aus den Tasten und lassen sich mit extrem hoher Geschwindigkeit bewältigen, es sind vor allem die normalen Wörter des täglichen Gebrauchs und immer wiederkehrende Wortteile aus denen ein Großteil der Sätze besteht. (werden, sein, haben, alles mit ich, lich, erst, isch, esch, mach, nach, heit, keit, enen, schaft, usw). Komplexere Wörter bereiten oft mehr Schwierigkeiten, wobei ich das nicht mehr so empfinde, auch ‚Psychologie‘ lässt sich noch relativ gut bewältigen aber es bremst etwas aus. Die Schwierigkeit, dass sich einzelne alltäglich Wörter extrem schlecht tippen lassen weil sich tatsächlich die Finger dabei verheddern hatte ich in viel höherem Maß bei Nordtast und noch schlimmer bei Neo2. Zumindest waren es da auch oft völlig alltägliche Worte die ausgebremst haben. > Für mich ist das extrem überraschend. Ich hätte bei AdnW eine viel größere > Regelmäßigkeit erwartet, erst recht nach den Lobliedern, die manche AdnW- > Nutzer darauf singen. Wenn ich genau darüber nachdenke finde ich es jetzt nicht so überraschend. Was mir bei AdNW schon auffällt ist, dass es trotz leichter Lernbarkeit relativ lange dauert, das Tippen wirklich rund zu kriegen, geschuldet der Tatsache, dass sich viele alltägliche Worte sozusagen hirnlos vollautomatisch tippen, dazwischen aber für speziellere Worte oft deutlich mehr Aufmerksamkeit aufgebracht werden muss. Meine Tippgeschwindigkeit liegt jetzt bei ca. 300 Anschlägen, und ich merke immer noch, dass es sehr von der Tagesform abhängig ist ob sich das Tippen ‚rund‘ anfühlt oder ob es immer wieder stockt bei den komplexeren Sachen, aber insgesamt gibt es nicht allzu viel das dabei wirklich stört, man bricht sich nicht die Finger dabei. Ich denke auch nach wie vor, dein Optimierer bewertet einige Fingerbewegungen schlechter als eigentlich sein müsste. Vielleicht als Anregung und Schlussfolgerung daraus einen Testkorpus zusammenstellen aus 1000 bis 3000 häufigsten oder besser gesagt banalsten Worten und das zum Gegentesten einer Belegung zu verwenden, es würde einfach zeigen, wie gut eine Belegung mit den banalen Standardaufgaben des Alltags zurechtkommt, also den Worten (und eventuell auch Wortteilen) aus denen die Sätze zum Großteil bestehen. Dass Du AdNW in deine Untersuchung miteinbeziehst ist insofern auch interessant und richtig, als es wenigstens eine Handvoll Leute gibt, die damit arbeiten und was dazu sagen können, ich denke aus dem Fall lässt sich noch einiges lernen. Es ist insgesamt immer noch das geschmeidigste Layout das ich bis jetzt kenne. Grüße Wolf -- Those who were seen dancing were thought to be insane by those who could not hear the music... signature.asc Description: OpenPGP digital signature