Re: [Neo] Wir brauchen den echten Korpus

2011-05-31 Diskussionsfäden Wolf Belschner
Am 30.05.2011 17:35, schrieb Arne Babenhauserheide:
 Qwertz: 
 snippets of 270 letters: 957.825201294 ± 422.314896543 (44.0910195276%)
 words: 488.000271844 ± 1272.01170344 (260.657990749%)
 
 Dvorak: 
 snippets of 270 letters: 355.464618085 ± 197.802365471 (55.6461474384%)
 words: 223.55820448 ± 621.277269116 (277.904034236%)
 
 Pfubsie (nur Deutsch): 
 snippets of 270 letters: 238.440936648 ± 108.466998756 (45.4900908712%)
 words: 176.257013533 ± 287.036763107 (162.851257577%)
 
 Easy (Nur Englisch): 
 snippets of 270 letters: 250.987728546 ± 165.050594115 (65.7604238546%)
 words: 182.363915564 ± 390.392453455 (214.073300767%)
 
 AdnW: 
 snippets of 270 letters: 278.504827291 ± 204.224877078 (73.3290259507%)
 words: 224.829276972 ± 1447.6902046 (643.906444966%)
 
 
 …hm…
 
 Das Ergebnis sagt aus, dass es viele Wörter gibt, die sich mit AdnW extrem 
 schlecht tippen lassen (mehr als bei Pfubsie), dass es im allgemeinen aber so 
 gut ist wie Dvorak (nach der Wertung von meinem Optimierer; mit dem von 
 Andreas sieht es sicher anders aus!). 

Das heißt aber auch im Umkehrschluss, dass es eine Menge Wörter gibt,
die sich damit extrem gut tippen lassen (immer nach den Kriterien deines
Optimierers)

Es fällt mir beim täglichen Schreiben nicht mehr so auf, aber wenn ich
darüber nachdenke hat das auch eine gewisse Richtigkeit. Es gibt eine
Menge Wörter die sich mit AdNW sozusagen von alleine tippen, sie fallen
einfach aus den Tasten und lassen sich mit extrem hoher Geschwindigkeit
bewältigen, es sind vor allem die normalen Wörter des täglichen
Gebrauchs und immer wiederkehrende Wortteile aus denen ein Großteil der
Sätze besteht. (werden, sein, haben, alles mit ich, lich, erst, isch,
esch, mach, nach, heit, keit, enen, schaft, usw). Komplexere Wörter
bereiten oft mehr Schwierigkeiten, wobei ich das nicht mehr so empfinde,
auch ‚Psychologie‘ lässt sich noch relativ gut bewältigen aber es bremst
etwas aus. Die Schwierigkeit, dass sich einzelne alltäglich Wörter
extrem schlecht tippen lassen weil sich tatsächlich die Finger dabei
verheddern hatte ich in viel höherem Maß bei Nordtast und noch schlimmer
bei Neo2. Zumindest waren es da auch oft völlig alltägliche Worte die
ausgebremst haben.

 Für mich ist das extrem überraschend. Ich hätte bei AdnW eine viel größere 
 Regelmäßigkeit erwartet, erst recht nach den Lobliedern, die manche AdnW-
 Nutzer darauf singen. 

Wenn ich genau darüber nachdenke finde ich es jetzt nicht so
überraschend. Was mir bei AdNW schon auffällt ist, dass es trotz
leichter Lernbarkeit relativ lange dauert, das Tippen wirklich rund zu
kriegen, geschuldet der Tatsache, dass sich viele alltägliche Worte
sozusagen hirnlos vollautomatisch tippen, dazwischen aber für
speziellere Worte oft deutlich mehr Aufmerksamkeit aufgebracht werden
muss. Meine Tippgeschwindigkeit liegt jetzt bei ca. 300 Anschlägen, und
ich merke immer noch, dass es sehr von der Tagesform abhängig ist ob
sich das Tippen ‚rund‘ anfühlt oder ob es immer wieder stockt bei den
komplexeren Sachen, aber insgesamt gibt es nicht allzu viel das dabei
wirklich stört, man bricht sich nicht die Finger dabei. Ich denke auch
nach wie vor, dein Optimierer bewertet einige Fingerbewegungen
schlechter als eigentlich sein müsste.

Vielleicht als Anregung und Schlussfolgerung daraus einen Testkorpus
zusammenstellen aus 1000 bis 3000 häufigsten oder besser gesagt
banalsten Worten und das zum Gegentesten einer Belegung zu verwenden, es
würde einfach zeigen, wie gut eine Belegung mit den banalen
Standardaufgaben des Alltags zurechtkommt, also den Worten (und
eventuell auch Wortteilen) aus denen die Sätze zum Großteil bestehen.

Dass Du AdNW in deine Untersuchung miteinbeziehst ist insofern auch
interessant und richtig, als es wenigstens eine Handvoll Leute gibt, die
damit arbeiten und was dazu sagen können, ich denke aus dem Fall lässt
sich noch einiges lernen. Es ist insgesamt immer noch das geschmeidigste
Layout das ich bis jetzt kenne.

Grüße

Wolf


-- 
Those who were seen dancing were thought to be insane
by those who could not hear the music...



signature.asc
Description: OpenPGP digital signature


Re: [Neo] Wir brauchen den echten Korpus

2011-05-31 Diskussionsfäden Arne Babenhauserheide
On Tuesday 31 May 2011 11:40:08 Wolf Belschner wrote:
  Für mich ist das extrem überraschend. Ich hätte bei AdnW eine viel
  größere  Regelmäßigkeit erwartet, erst recht nach den Lobliedern, die
  manche AdnW- Nutzer darauf singen.

 Wenn ich genau darüber nachdenke finde ich es jetzt nicht so
 überraschend. Was mir bei AdNW schon auffällt ist, dass es trotz
 leichter Lernbarkeit relativ lange dauert, das Tippen wirklich rund zu
 kriegen, geschuldet der Tatsache, dass sich viele alltägliche Worte
 sozusagen hirnlos vollautomatisch tippen, dazwischen aber für
 speziellere Worte oft deutlich mehr Aufmerksamkeit aufgebracht werden
 muss.

Dann passt das Ergebnis anscheinend doch…

Das erklärt auch, warum AdnW bei mir nur so gut wie Dvorak abschneidet:
Seltene Worte werden vermutlich bei mir anders gewertet als bei Andreas.

Wenn sie rausgerechnet werden, dürfte AdnW deutlich besser abschneiden,
allerdings halt nur für eine Teilmenge der Tipparbeit.

Ein Grund dafür drfte sein, dass der Optimierer von AdnW bestimmte Bewegungen
als gut bewertet, die meiner als absolut grausig sieht (es gibt einige
Bigramme, die alleine schon Kosten von 4000 Strafpunkten einfahren, also 2000
pro Zeichen, und es gibt auch ein paar ganz verbotene, die *richtig* weh tun…

| Komplexere Wörter bereiten oft mehr Schwierigkeiten, wobei ich das nicht
mehr so empfinde, auch ‚Psychologie‘ lässt sich noch relativ gut bewältigen
aber es bremst etwas aus.

Hundertprozentig lässt sich das nicht entfernen, aber ich hoffe, dass es sich
deutlich reduzieren lässt.

Das Problem bei den Vergleichen ist das gleiche wie bei dem Vergleich Neo
gegen Qwertz: Das was man kennt, läuft gut. Wenn dich die Problemwörter bei
AdnW oft genug genervt haben, laufen sie automatisch und fallen nicht mehr
auf. Bei einer neuen Belegung gibt es immer Problemwörter, die du noch nicht
drin hast und die deswegen stören.

--
Konstruktive Kritik:

- http://draketo.de/licht/krude-ideen/konstruktive-kritik



signature.asc
Description: This is a digitally signed message part.


[Neo] Auswertung von Pascals Umfrage

2011-05-31 Diskussionsfäden Arne Babenhauserheide
Hi,

Ich habe die Umfrage etwas ausgewertet.

https://bitbucket.org/ArneBab/evolve-keyboard-
layout/raw/bca091c1f93c/empirie/2011-05-30-tastenkosten-umfrage.csv

https://bitbucket.org/ArneBab/evolve-keyboard-
layout/raw/bca091c1f93c/empirie/2011-05-30-tastenkosten-umfrage.txt

Wichtigster Inhalt:


5   5   3   3   8   8   4   2   7   7   6   5   5   7
4   5   2   2   7   7   5   1   5   5   3   3   4   7.5
2   4   1   2   6   6   3   1   2   2   2   2   3   3
2   5   1   1   5   6   2   1   3   3   3   3   3   4
4   6   2   1   8   7   3   2   7   7   5   4   2   3
7   9   7   5   9   8   4   4   9   9   8   9   5   3.5
2   6   4   1   5   6   3   1   3   3   4   5   3   3
2   4   3   2   6   6   2   1   2   2   2   2   3   2
4   5   2   2   7   7   2   1   5   5   3   3   4   6
5   6   2   3   8   8   4   2   7   7   6   5   3   9
7   5   3   4   8.5 9   4   3   8   8   8   7   4   5

1   1   0   0   3   1   2   0   1   1   1   1   1   0.5
0   1   0   0   2   0   3   0   0   0   0   0   0   0
0   0   0   0   1   0   2   0   0   0   0   0   0   0
0   0   0   0   0   0   1   0   0   0   0   0   0   0
4   4   2   1   2   4   2   1   3   3   2   1   2   0.8
4   4   1   1   2   4   2   1   3   3   2   1   2   0.7
0   0   0   0   0   0   1   0   0   0   0   0   0   0
0   0   0   0   1   0   1   0   0   0   0   0   0   0
0   1   0   0   2   0   2   0   0   0   0   1   0   0.5
1   1   0   0   3   1   2   0   1   1   1   1   1   1.5
6   3   3   3   4   6   4   2   5   5   3   2   2   7

5   3   7   8   7   7   6   1   7   7   3   5   3   5
5   5   9   6   6   7   7   1   7   7   5   6   4   4.5
8   9   8   6   5   6   2   1   7   7   6   7   2   3.5
4   4   4   4   4   6   4   1   4   4   3   3   1   3.5
9   8   5   9   9   8   7   1   9   9   7   5   3   4
5   5   3   4   8   6   5   4   4   4   5   3   1   4
3   5   4   4   4   6   1   1   4   4   2   2   3   3
4   6   2   6   5   7   3   1   5   5   4   6   2   2.5
4   7   2   6   6   7   4   1   6   6   4   7   2   6
4   5   2   8   8   8   5   2   5   5   4   6   1   7


Daraus berechnet: (1) Normiert auf Neo 2 B = 4.5 (2) bzw. p = 3.5 (3) bzw.
Mittelwert von beiden (4) Mittelwert mal 5 (z etwa 30).

(1)array([[ 6.58928571,  5.21785714,  3.35892857,  3.65089286,  4.74642857,
 8.3625,  4.29910714,  3.42857143,  4.90446429,  6.06428571,
 6.97366071,  1.125 ,  0.3375,  0.16875   ,  0.06428571,
 2.7375,  2.62232143,  0.06428571,  0.10446429,  0.42053571,
 1.20535714,  4.45714286,  6.24910714,  6.97232143,  6.34821429,
 3.84375   ,  7.39017857,  4.5   ,  4.08214286,  4.73571429,
 5.45357143,  5.25535714],
(2)   [ 6.125 ,  4.76488095,  3.17261905,  3.41071429,  4.63095238,
 7.9375,  3.90178571,  3.16369048,  4.4702381 ,  5.76785714,
 6.70089286,  1.05654762,  0.375 ,  0.1875,  0.0625,
 2.53630952,  2.4667,  0.0625,  0.125 ,  0.43154762,
 1.12797619,  4.22916667,  5.44047619,  6.0297619 ,  5.5833,
 3.5   ,  6.68154762,  4.82738095,  3.61011905,  4.30357143,
 4.94940476,  5.0417]])

(3)
scipy.mean(scipy.array(g), 0)
array([ 6.35714286,  4.99136905,  3.26577381,  3.53080357,  4.68869048,
8.15  ,  4.10044643,  3.29613095,  4.68735119,  5.91607143,
6.83727679,  1.09077381,  0.35625   ,  0.178125  ,  0.06339286,
2.63690476,  2.54449405,  0.06339286,  0.11473214,  0.42604167,
1.1667,  4.34315476,  5.84479167,  6.50104167,  5.96577381,
3.671875  ,  7.0358631 ,  4.66369048,  3.84613095,  4.51964286,
5.2014881 ,  5.1485119 ])

scipy.std(scipy.array(g), 0)
array([ 4.02660283,  3.38466199,  2.56940764,  2.58851824,  1.89819739,
3.99284198,  2.60107318,  2.5542067 ,  3.40353845,  2.45698654,
3.09640839,  1.01032361,  0.76373948,  0.47980854,  0.2285662 ,
1.71020213,  1.75765079,  0.2285662 ,  0.28283884,  0.62812253,
1.00533701,  1.63336416,  2.48836364,  3.27096439,  2.40516244,
0.57725079,  2.27528536,  1.37963363,  2.48118638,  1.81044265,
1.9497867 ,  1.59964081])

Werte:
6 5 3 4 5   8 4 3 5 6 7
1 0 0 0 3   3 0 0 0 1 4
6 7 6 4 7   5 4 5 5 5

Abweichung:
4 3 3 3 2   4 3 3 3 2 3
1 1 0 0 2   2 0 0 1 1 2
2 3 2 1 2   1 2 2 2 2


(4) (das hier kann in den Optimierer)
scipy.mean(scipy.array(g), 0)*5
array([ 31.78571429,  24.95684524,  16.32886905,  17.65401786,
23.44345238,  40.75  ,  20.50223214,  16.48065476,
23.43675595,  29.58035714,  34.18638393,   5.45386905,
 1.78125   ,   0.890625  ,   0.31696429,  13.18452381,
12.72247024,   0.31696429,   0.57366071,   2.13020833,
 5.8333,  21.71577381,  29.22395833,  32.50520833,
29.82886905,  18.359375  ,  35.17931548,  23.31845238,
19.23065476,  22.59821429,  26.00744048,  25.74255952])

scipy.std(scipy.array(g), 0)*5
array([ 20.13301414,  16.92330995,  12.84703818,  12.94259122,
 9.49098697,  

Re: [Neo] Wir brauchen den echten Korpus

2011-05-31 Diskussionsfäden Wolf Belschner
Am 31.05.2011 16:07, schrieb Arne Babenhauserheide:

 Ein Grund dafür drfte sein, dass der Optimierer von AdnW bestimmte Bewegungen 
 als gut bewertet, die meiner als absolut grausig sieht (es gibt einige 
 Bigramme, die alleine schon Kosten von 4000 Strafpunkten einfahren, also 2000 
 pro Zeichen, und es gibt auch ein paar ganz verbotene, die *richtig* weh tun… 
 
 | Komplexere Wörter bereiten oft mehr Schwierigkeiten, wobei ich das nicht 
 mehr so empfinde, auch ‚Psychologie‘ lässt sich noch relativ gut bewältigen 
 aber es bremst etwas aus. 
 
 Hundertprozentig lässt sich das nicht entfernen, aber ich hoffe, dass es sich 
 deutlich reduzieren lässt. 

Das lässt sich sicher nicht entfernen und ich denke auch nur reduzieren
auf Kosten einer allgemeinen Tippbarkeit. Es sind immer noch 32
Buchstaben auf die gleichen 32 Tasten zu verteilen, das heisst, je nach
Korpus lässt sich das sicher in die eine oder andere Richtung
beeinflussen. Die besonderen Wörter wird man immer besonders lernen müssen.

Eine niedrigere Standardabweichung heisst dann aber nur, dass die
Aufgaben die der Gesamtkorpus stellt gleichmäßiger zu bewältigen sind,
aber nicht unbedingt, dass das auch tatsächlich besser ist was die
allgemeine Tippbarkeit betrifft.

Angenommen als Extrembeispiel: Man könnte einen extremen Korpus mit
medizinischen Texten nehmen oder auch eine Programmiersprache und eine
Belegung ermitteln mit der sich dies gut und smooth und ohne allzu große
Standardabweichung bewältigen lässt, die dann aber schon beim Tippen
einer normalen Mail sich hakelig verhält.

Vielleicht ein Hinweis darauf den Korpus nicht mit zuvielen
Spezialgebieten zu belasten, sowohl was Sprachen, als auch besondere
Wortschätze betrifft.

Gruß

Wolf



signature.asc
Description: OpenPGP digital signature


Re: [Neo] Wir brauchen den echten Korpus

2011-05-31 Diskussionsfäden Wolf-Heider Rein
Bei der Belegung einer Tastatur bin ich zu der Überzeugung gekommen, dass man 
dafür NICHT ALLE Buchstabenfolgen betrachten und bewerten sollte, sondern nur 
die Buchstabenfolgen innerhalb einer Silbe. 

Diese Ansicht beruht auf einer Untersuchung über die Steuerung der 
Sprachmotorik, die ich gelesen habe. Die Versuchspersonen haben Texte a) mit 
einem Stift auf Papier und b) mit einer Tastatur geschrieben. Der Ablauf der 
manuellen Bewegungen wurde elektronisch erfasst. In diesen Texten kamen 
beispielsweise die drei Wörter “Kind - Linde - hindurch“ vor. Die Analyse 
ergab, dass unabhängig von der individuellen Schreibgeschwindigkeit und von der 
Schreibmethode (Bleistift/Tastatur) die Zeitabstände zwischen gleichen 
Buchstabenpaaren in den Texten nicht gleich war. Zum Beispiel: Der Zeitabstand 
zwischen den Buchstaben n und d war bei dem Wort Kind am kleinsten, bei 
Linde war er ca. 20 Prozent größer, und bei hindurch war er ungefähr 
doppelt so groß. 

Das Sprachzentrum im Gehirn steuert die Schreibbewegungen demnach nicht mit 
einer konstanten Buchstabengeschwindigkeit, sondern innerhalb einer Silbe 
schneller als an den Silbengrenzen. Bei einer Belegung kommt es demnach darauf 
an, dass die Buchstabenfolgen innerhalb einer Silbe griffgünstig liegen. An den 
Silbengrenzen spielt die Griffgünstigkeit eine geringere Rolle. 

Deshalb erscheint es mir sinnvoll, die Griffgünstigkeit anhand der tausend bis 
zehntausend häufigsten Wörter zu analysieren. Die Rangliste der häufigsten 
Wörter besteht überwiegend aus sehr kurzen Wörtern, bei denen die 
Buchstabenfolgen an den Silbengrenzen einen geringeren Anteil haben als bei 
einem Mix, der viele seltenere (und damit längere) Wörter enthält. 

Wahrscheinlich (?) genügen für eine ausreichend aussagefähige Analyse die 
tausend (?) häufigsten Wörter einer Sprache. 
Bei der Belegung der Tasten für eine Einhandtastatur habe ich insbesondere die 
Buchstabenfolgen beachtet, die an den Wortenden der flektierten Wörter 
auftreten. Diese Silben sind meistens unbetont, und sollten sich mit flotten 
Bewegungen anfügen lassen.

Wolf-Heider Rein

Am 31.05.2011 um 16:07 schrieb Arne Babenhauserheide:

 On Tuesday 31 May 2011 11:40:08 Wolf Belschner wrote:
 Für mich ist das extrem überraschend. Ich hätte bei AdnW eine viel
 größere  Regelmäßigkeit erwartet, erst recht nach den Lobliedern, die
 manche AdnW- Nutzer darauf singen.
 
 Wenn ich genau darüber nachdenke finde ich es jetzt nicht so
 überraschend. Was mir bei AdNW schon auffällt ist, dass es trotz
 leichter Lernbarkeit relativ lange dauert, das Tippen wirklich rund zu
 kriegen, geschuldet der Tatsache, dass sich viele alltägliche Worte
 sozusagen hirnlos vollautomatisch tippen, dazwischen aber für
 speziellere Worte oft deutlich mehr Aufmerksamkeit aufgebracht werden
 muss.
 
 Dann passt das Ergebnis anscheinend doch… 
 
 Das erklärt auch, warum AdnW bei mir nur so gut wie Dvorak abschneidet: 
 Seltene Worte werden vermutlich bei mir anders gewertet als bei Andreas.
 
 Wenn sie rausgerechnet werden, dürfte AdnW deutlich besser abschneiden, 
 allerdings halt nur für eine Teilmenge der Tipparbeit.
 
 Ein Grund dafür drfte sein, dass der Optimierer von AdnW bestimmte Bewegungen 
 als gut bewertet, die meiner als absolut grausig sieht (es gibt einige 
 Bigramme, die alleine schon Kosten von 4000 Strafpunkten einfahren, also 2000 
 pro Zeichen, und es gibt auch ein paar ganz verbotene, die *richtig* weh tun… 
 
 | Komplexere Wörter bereiten oft mehr Schwierigkeiten, wobei ich das nicht 
 mehr so empfinde, auch ‚Psychologie‘ lässt sich noch relativ gut bewältigen 
 aber es bremst etwas aus. 
 
 Hundertprozentig lässt sich das nicht entfernen, aber ich hoffe, dass es sich 
 deutlich reduzieren lässt. 
 
 Das Problem bei den Vergleichen ist das gleiche wie bei dem Vergleich Neo 
 gegen Qwertz: Das was man kennt, läuft gut. Wenn dich die Problemwörter bei 
 AdnW oft genug genervt haben, laufen sie automatisch und fallen nicht mehr 
 auf. Bei einer neuen Belegung gibt es immer Problemwörter, die du noch nicht 
 drin hast und die deswegen stören. 
 
 --
 Konstruktive Kritik: 
 
 - http://draketo.de/licht/krude-ideen/konstruktive-kritik
 




Re: [Neo] Wir brauchen den echten Korpus

2011-05-31 Diskussionsfäden Arne Babenhauserheide
On Tuesday 31 May 2011 18:12:15 Wolf Belschner wrote:
 Eine niedrigere Standardabweichung heisst dann aber nur, dass die
 Aufgaben die der Gesamtkorpus stellt gleichmäßiger zu bewältigen sind,
 aber nicht unbedingt, dass das auch tatsächlich besser ist was die
 allgemeine Tippbarkeit betrifft.

Die Standardabweichung bei Wörtern kann auf etwa ⅕ der Abweichung bei AdnW
gedrückt werden. Bei 270 Zeichen auf die Hälfte. Und das finde ich doch recht
heftig.

Für die allgemeine Tippbarkeit dürfte das bedeuten, dass es weniger Brüche im
Tippfluss gibt, und weniger starke. Das sehe ich persönlich als sehr wichtig an
(sonst hätte ich das Skript zum Testen der Standardabweichung nicht schon
letztes Jahr geschrieben :) ). Die Belegung dürfte schneller zu lernen und
entspannter zu tippen sein.

Als Vergleich: Qwertz hat eine Standardabweichung bei Wörtern von über 1200,
AdnW kommt über 1400, und Qwertz hat so Monster wie „zerfasert“ und
„gesondert“.

Der Test hätte uns übrigens vor der Schwäche von Pfubsie gewarnt: Beim
Englischen Text hatte es eine Standardabweichung bei Wörtern von über 500,
während “easy” auf knapp 280 kam. Das ist fast Faktor 2 (y scheint da heftig
zuzuschlagen :) ).


Pfubsie:
snippets of 270 letters: 253.87993151 ± 183.484690556 (72.2722309967%)
words: 175.341368632 ± 546.501984656 (311.678863304%)

Easy:
snippets of 270 letters: 215.04338335 ± 123.634617547 (57.4928721923%)
words: 153.816528692 ± 278.440901013 (181.021443782%)


Nebenbei: Jemand wollte mal ein gutes Layout nur für Englisch. Da wäre easy
ein Beispiel (allerdings nur für englische Prosa, nicht für code oder die
shell):

http://draketo.de/dateien/layouts/easy-adnw.png
http://draketo.de/dateien/layouts/easy-adnw.svg
http://draketo.de/dateien/layouts/easy-gutt.png
http://draketo.de/dateien/layouts/easy-gutt.svg

Liebe Grüße,
Arne
--
1w6 sie zu achten,
sie alle zu finden,
in Spiele zu leiten
und sacht zu verbinden.
→ http://1w6.org



signature.asc
Description: This is a digitally signed message part.


Re: [Neo] Wir brauchen den echten Korpus

2011-05-31 Diskussionsfäden Arne Babenhauserheide
On Tuesday 31 May 2011 19:06:23 Wolf-Heider Rein wrote:
 Wahrscheinlich (?) genügen für eine ausreichend aussagefähige Analyse die
 tausend (?) häufigsten Wörter einer Sprache.

Das verzerrt die Belegung deutlich (weil bestimmte Übergängeplötzlich völlig
ignoriert werden und der Optimierer sie fast automatisch extrem schlechten
Bewegungen zuweist, um Platz für die anderen zu machen). Also müssten wir
einen kompletten Korpus mit Hilfe eines Wörterbuches gewichten. Es gibt NLTK,
das könnte das vielleicht (natural language toolkit).

Das könnte allerdings recht viel Arbeit sein.

Hast du einen Link zu der Untersuchung?

Liebe Grüße,
Arne

--
singing a part of the history of free software:

- http://infinite-hands.draketo.de



signature.asc
Description: This is a digitally signed message part.


Re: [Neo] Wir brauchen den echten Korpus

2011-05-31 Diskussionsfäden Wolf Belschner
Am 31.05.2011 19:10, schrieb Arne Babenhauserheide:

 Als Vergleich: Qwertz hat eine Standardabweichung bei Wörtern von über 1200, 
 AdnW kommt über 1400, und Qwertz hat so Monster wie „zerfasert“ und 
 „gesondert“.

solche offensichtlichen Monster sind mir aber bei AdNW noch nicht
begegnet, irgendwas kann da immer noch nicht stimmen ???

Grüße

Wolf



signature.asc
Description: OpenPGP digital signature


Re: [Neo] Wir brauchen den echten Korpus

2011-05-31 Diskussionsfäden Peter Fischer

On 31.05.2011 19:18, Arne Babenhauserheide wrote:

Hast du einen Link zu der Untersuchung?

*auchhabenwill* :)

Peter