Re: [Neo] N-grame für GB, US Englisch, Deutsch und andere Sprachen

2012-01-13 Diskussionsfäden Karl Köckemann
Hallo Matija,

Matija Šuklje writes:

 Ich weiß nicht ob ihr's wüstet, aber Google Books macht — und veröffentlicht! 
 — auch n-grame für die Bücher die ihr gescant haben:
 
 http://books.google.com/ngrams/datasets
 
 Vielleicht würde das bei der Neo3 ja helfen...

Viele veröffentlichte n-Gramme haben als kleinstes Fragment ein ganzes Wort -
auch die von Google.
Bei den meisten Tastenbelegungen wird pro Tastendruck kein ganzes Wort, sondern
ein Buchstabe ausgegeben. Daher sind auch für Neo n-Gramme interessanter, die
als kleinstes Fragment ein Zeichen (statt ein Wort) haben.

Da die n-Gramme aus einem Textkorpus erzeugt werden können und ein Textkorpus
für die Überprüfung einer Tastenbelegung praktischer erscheint, sind
Textkorpusse für Neo viel interessanter als fertige n-Gramme aus nicht
reproduzierbarem Ursprung. Wenn ich mich richtig erinnere, mangelt es noch an
einem oder mehreren verfügbaren und uneingeschränkt nutzbaren großen
Textkorpussen. Bei meiner damaligen Suche danach, habe ich das Ziel nicht
erreicht. Oder haben wir inzwischen weitere Korpusse?

Mit netten Grüßen
Karl




Re: [Neo] N-grame für GB, US Englisch, Deutsch und andere Sprachen

2012-01-13 Diskussionsfäden Hans Meine
Am Freitag, 13. Januar 2012, 10:31:49 schrieb Karl Köckemann:
 Da die n-Gramme aus einem Textkorpus erzeugt werden können und ein
 Textkorpus für die Überprüfung einer Tastenbelegung praktischer erscheint,
 sind Textkorpusse für Neo viel interessanter als fertige n-Gramme aus nicht
 reproduzierbarem Ursprung.

Ganz wertlos sind die n-Gramme natürlich nicht - man kann ja auch aus Wörtern 
(und Worthäufigkeiten) Buchstaben-n-Gramme (mit entspr. Häufigkeiten) erstellen.

Mit Googles Daten sogar in Abhängigkeit von Jahreszahlen, wenn ich das richtig 
sehe (Erscheinungsdaten der Bücher nehme ich an).

Ist sicherlich kein Ersatz für einen bekannten, spezialisierten Korpus (auch 
weil Zeichen fehlen, denke ich), aber trotzdem statistisch gesehen wertvoll, 
alleine wegen des Umfangs.

Ciao,
  Hans




Re: [Neo] [Truly Ergonomic] Erfahrungswerte für Kaufentscheidung gesucht

2012-01-13 Diskussionsfäden Matija Šuklje
ìm=ªíïÍ6óvŽMm±w¹` ¨ž×§µ:ڞÇÞ¬Iܡا¶¬{®¢{^žÔò¥ë^Æß镨§r«±ë

Re: [Neo] N-grame für GB, US Englisch, Deutsch und andere Sprachen

2012-01-13 Diskussionsfäden wettstein509
 Ganz wertlos sind die n-Gramme natürlich nicht - man kann ja auch aus Wörtern 
 (und Worthäufigkeiten) Buchstaben-n-Gramme (mit entspr. Häufigkeiten) 
 erstellen.

Solange es nur um Buchstaben geht, sollte das auch nicht schwierig sein.
Man will aber vielleicht auch Zeichen-n-Gramme mit Satzzeichen oder
Leerzeichen haben.  Immerhin sind Punkt und Komma mit jeweils gut 1%
häufiger als so mancher Buchstabe.  Leerzeichen muss man spätestens dann
mitnehmen, wenn man Zeichentrigramme (oder höhere n-Gramme) in der
Optimierung berücksichtigt.

Nun ist aber ein Wort gefolgt von einem Satzzeichen gemäss Google schon
ein Wort-Bigramm, und zwei von Leerzeichen getrennte Wörter sowieso.
Wenn man die Häufigkeit eines Zeichen-Trigramms «Satzzeichen Leerzeichen
Buchstabe» haben will, braucht man dementsprechend schon die
Google-Trigramme.  Von letzteren gibt es 200 Files pro Sprache, das
erste davon für Deutsch ist 65 MB komprimiert und 500 MB unkomprimiert
gross.

Und es ja so, dass bei einer Wortfolge W1 W2 ... Wn die Wort-Trigramme
Worte W1 und Wn einmal in den Wort-Trigrammen vorkommen, W2 und W(n-1)
zweimal, und die anderen dreimal.  Wenn n nicht sehr gross ist wird
dadurch also die naive Zählung der Zeichen-n-Gramme verfälscht.  Ich
glaube, bei Google ist n die Anzahl der Wörter pro Druckseite, was nicht
allzu viel wäre.  Man kann die Inkonsistenzen sicher rausrechnen, wenn
man die Wort-2- und -1-Gramme mit berücksichtigt.  Ziemlich viel Mühe
dafür, den statistischen Fehler der Belegungsbewertung sinnlos klein zu
machen.

Andreas







Re: [Neo] XKB-Treiber: Taste gleichzeitig als normale Taste und Modifier nutzen

2012-01-13 Diskussionsfäden Olaf
 wettstein509 at solnet.ch writes:

 
 Die meines Wissens beste Möglichkeit erfordert ein wenig programmieren.
 Mit der XRECORD Extension kann man die Tastatureingabe belauschen und
 mit der XTest Extension Tastatureingaben simulieren.  Damit lässt sich
 das Gewünschte relativ einfach (100 Zeilen) umsetzen.  Bei Bedarf kann
 ich ein Beispiel posten, das etwas von der Idee her Ähnliches macht.
 
 Andreas
 
 

Hallo Andreas,

danke für diese Hinweise. Der am Ende beschriebene Ansatz scheint mir auch der
leichteste zu sein. Die Tasteneingaben mit der XTest Extension zu 
simulieren, wäre für mich kein Problem. Für die Arbeit mit XRECORD habe ich
im Netz aber leider kein gutes Beispiel finden können. Da würde ich gerne 
auf dein Angebot eines Beispiels zurück kommen ;)

Viele Grüße
Olaf