Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-03-25 Diskussionsfäden Karl
Florian Janßen writes:

> Die N-Gramme dauern noch, ich habe einen richtig saftigen Fehler in
> meinem Skript:
> Ich habe aus „Zufallswort “ nur die Bigramme
> »Zu« »fa« »ll« »sw« »or« »t « erstellt, nicht aber die richtigen
> »Zu« »uf« »fa« »al« »ll« »ls« »sw« »wo« »or« »rt« »t « erstellt.
> 
> Also heute Nacht nochmal das gleiche von vorn.

Vielleicht etwas umständlich, aber zuverlässig:
http://article.gmane.org/gmane.comp.hardware.keyboards.layout.neo/4602

Mit netten Grüßen
Karl




Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-03-25 Diskussionsfäden Florian Janßen
Karl schrieb am 25.03.2011 um 11:07 Uhr:
> Florian Janßen writes:
> 
>> Wikipedia-Korpus ist fertig (knapp 9GB in 190 ~50MB Text-Dateien). Die
>> N-Gramme sind auch fast fertig berechnet.
> 
> Du hast meine Hochachtung für die wunderbare Leistung!
> Ist es Dir möglich, mir eine der Textdateien zukommen zu lassen?

Kann ich machen, ich kann eine kleinere Datei erzeugen. Oder eine Datei
je Artikel und dir ein paar schicken.


> Dessen Inhalt möchte ich mir genauer ansehen, denn er wird sicher 
> besser sein, als der des Leipziger Korpus. Bei Zeichencodierung 
> Unicode (UTF-8) wird der Wikipediakorpus der erste Korpus sein, der 
> vielleicht eine Aussage zu den Zeichen ermöglicht, die über den
> ASCII-Zeichenvorrat hinausgehen.

Da wäre ich mir nicht zu sicher. Die in der normalen Sprache nötigen
Sonderzeichen sind auch nicht so häufig vorhanden, wie sie sein müssten,
da recht oft die Ersatzzeichen benutzt wurden.
Außerdem sind die Sonderzeichen für html und Wikitext
unterrepräsentiert, da ich deren Spuren ja aus dem Text entfernt habe.
Aber für Programmiersprachen & Co sollen wir vielleicht besser reine
Sprachkorpora erstellen und die zu einem geringen Teil beimischen, bzw.
darauf achten, dass deren häufige Bi- und Trigamme kein Worstcase
produzieren.

> Was (vermutlich nicht nur) mich interessiert:
> Kann eine Anleitung erstellt werden, nach der die einzelnen Schritte so 
> umsetzen
> kann, dass aus auf Wikimedia-Software basierende freie Wikis jeder selber den
> Textkorpus extrahieren kann?

Ja, aber ich bin noch nicht ganz mit meiner Methode zufrieden. Ich bin
etwas rabiat zu Werke gegangen und habe im Zweifelsfall lieber einen
Ausdruck entfernt, statt ihn stehen zu lassen um einen möglichst
„sauberen“ Korpus zu erreichen.
Auf der anderen Seite habe ich nur manuell den Wikisyntax entfernt, der
mir aufgefallen ist. Ich hatte keine Lust mir die ellenlange php-Datei
vorzunehmen, in der der ganze Zauber steckt.


>> Ich bin mal gespannt, wie groß die Unterschiede zum Leipziger Korpus
>> sind und wie sehr die sich in der Bewertung mit Arnes Optimierer auswirken.
> 
> Da der Wikipediakorpus lexikalischer Natur ist, der Leipziger Korpus hingegen
> zeitungslastig, erwarte ich deutliche Unterschiede - auch bei den n-Grammen. 
> Ich
> bin ebenfalls auf erste Ergebnisse gespannt.

Die N-Gramme dauern noch, ich habe einen richtig saftigen Fehler in
meinem Skript:
Ich habe aus „Zufallswort “ nur die Bigramme
»Zu« »fa« »ll« »sw« »or« »t « erstellt, nicht aber die richtigen
»Zu« »uf« »fa« »al« »ll« »ls« »sw« »wo« »or« »rt« »t « erstellt.

Also heute Nacht nochmal das gleiche von vorn.

Gruß Florian





signature.asc
Description: OpenPGP digital signature


Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-03-25 Diskussionsfäden Dennis Heidsiek

Hallo Florian,


Florian Janßen ſchrieb am 25.03.2011 12:41 Uhr:
Genau die habe ich verwendet. Und das sind eben gut 8 GB wenn man sie 
auspackt.


Danke für den Hinweis, ich hätte auf weniger ›Ouput‹ (bzw. eine 
schlechtere Komprimierung) getippt!


Man könnte das Entpacken aber vermeiden, wenn man das in eine Pipe packt:
$ bzip2 -dc | verarbeite


Viele Grüße,
Dennis-ſ



Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-03-25 Diskussionsfäden Florian Janßen
Dennis Heidsiek schrieb am 25.03.2011 um 12:26 Uhr:
> Florian Janßen ſchrieb am 24.03.2011 13:51 Uhr:
>> die Wikipedia Seiten und Artikel vom 01.02.2011 liegen mir als xml-Datei
>> (gut 8GB) vor 

> und nur die Artikel herunterlädt (pages-articles.xml.bz2), sind es
> sogar ›nur‹ noch  2.1 GB (Komprimiert, versteht sich ;)

Genau die habe ich verwendet. Und das sind eben gut 8 GB wenn man sie
auspackt.

Gruß Florian




Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-03-25 Diskussionsfäden Dennis Heidsiek

Hallo allerseits,


Florian Janßen ſchrieb am 24.03.2011 13:51 Uhr:

die Wikipedia Seiten und Artikel vom 01.02.2011 liegen mir als xml-Datei
(gut 8GB) vor und ich ein Skript geschrieben, dass mir die Relevanten
Text-Knoten extrahiert. Vorerst erstelle ich für jeden Artikel einen
eigene Datei.


Bei 8GB muss aber Deine Leitung geblüht haben ;). Die aktuelle Version 
aller Seiten (pages-meta-current.xml.bz2) hat nur 3.3 GB, und wenn man 
zusätzlich die Benutzer- und Diskussionsſeiten wegläßt und nur die 
Artikel herunterlädt (pages-articles.xml.bz2), sind es sogar ›nur‹ noch  
2.1 GB (Komprimiert, versteht sich ;):


http://dumps.wikimedia.org/dewiki/latest/

Und hier ist nochmal die entsprechende Hilfeseite in der Wikipedia:
https://secure.wikimedia.org/wikipedia/de/wiki/Wikipedia:Download


Viele Grüße,
Dennis-ſ




Re: [Neo] Ergonomische Tastaturbelegung führt zu Weltmeisterschaft

2011-03-25 Diskussionsfäden Arne Babenhauserheide
On Friday 25 March 2011 10:59:38 Wolf Belschner wrote:
> In Arnes gegenwärtigen Optimiererkriterien ist dies
> zuungunsten vieler weiterer Kriterien ins Hintertreffen geraten und
> müsste imho wieder größeres Gewicht bekommen.

Das hat es bereits, aber komplexer als bei AdNW, da auch Übergänge zwischen
nichtbenachbarten Fingern mit Kosten belegt werden können (z.B. um Ein- oder
Auswärtsbewegungen zu bevorzugen).

Nur zwischen Zeige- und Mittelfinger gibt es kaum Nachbarkosten.

Liebe Grüße,
Arne

signature.asc
Description: This is a digitally signed message part.


Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-03-25 Diskussionsfäden Karl
Florian Janßen writes:

> Wikipedia-Korpus ist fertig (knapp 9GB in 190 ~50MB Text-Dateien). Die
> N-Gramme sind auch fast fertig berechnet.

Du hast meine Hochachtung für die wunderbare Leistung!
Ist es Dir möglich, mir eine der Textdateien zukommen zu lassen? Dessen Inhalt
möchte ich mir genauer ansehen, denn er wird sicher besser sein, als der des
Leipziger Korpus. Bei Zeichencodierung Unicode (UTF-8) wird der Wikipediakorpus
der erste Korpus sein, der vielleicht eine Aussage zu den Zeichen ermöglicht,
die über den ASCII-Zeichenvorrat hinausgehen.

Was (vermutlich nicht nur) mich interessiert:
Kann eine Anleitung erstellt werden, nach der die einzelnen Schritte so umsetzen
kann, dass aus auf Wikimedia-Software basierende freie Wikis jeder selber den
Textkorpus extrahieren kann?

> Ich bin mal gespannt, wie groß die Unterschiede zum Leipziger Korpus
> sind und wie sehr die sich in der Bewertung mit Arnes Optimierer auswirken.

Da der Wikipediakorpus lexikalischer Natur ist, der Leipziger Korpus hingegen
zeitungslastig, erwarte ich deutliche Unterschiede - auch bei den n-Grammen. Ich
bin ebenfalls auf erste Ergebnisse gespannt.

Mit netten Grüßen
Karl




Re: [Neo] Ergonomische Tastaturbelegung führt zu Weltmeisterschaft

2011-03-25 Diskussionsfäden Ulrich Bär
2011/3/24 Arne Babenhauserheide 

> aber ich vermute, dass die Maximalgeschwindigkeit
> viel mehr vom Hirn begrenzt wird
>

Das sehe ich auch so, grade Die Schmerzen kommen meines erachtens durch ein
verkrampfen da das gehirn wiedersprüchliche Signale sendet.

Das lernen des Layouts geschieht ja aktiv (grosshirn), durch training werden
Bewegungsmusster im Kleinhirn abgelegt. Kommt es zu kollisionen (weil ein
qwert befehl ein neo befehl überlagert) kommt es zur verkrampfung.

Ich gehe auch davon aus das es sich ähnlich dem speed reading verhält.
Sprich am Anfang tippt man Buchstabe für Buchstabe.. mit der Zeit liegen für
bi und trigramme und später für komplette Wörter die Bewegungsabläufe vor.
Ich denke nicht das ganze Sätze als Bewegungsinformation abgelegt werden
können.
Umgekehrt vermute ich das es ein deutlichen Geschwindigkeits unterschied
zwischen kurzen und langen Wörtern gibt. Respektiv lässt sich eine
Zeichenkette (ohne leerzeichen) nicht so schnell schreiben wie trainierte
Wörter.

Bezüglich Türkisch habe ich hier eine Tabelle gefunden
http://www.sttmedia.de/buchstabenhaeufigkeit-tuerkisch
Das Ü kommt seltener vor als gedacht :-)

Aber interessant ist die Anzahl der Buchsaben mit über 5% Häufigkeit.
Türkisch:A E I R N L (6)
Englisch:E T A O N I S H R (9)
Deutsch: E N I R S T A (7)
Hindi:   ा क े र (4)


Re: [Neo] Ergonomische Tastaturbelegung führt zu Weltmeisterschaft

2011-03-25 Diskussionsfäden Wolf Belschner
Am 23.03.2011 20:18, schrieb Cornelis Hilscher:

> Die Frage finde ich auch interessant. Bis vor kurzem habe ich für etwa zwei
> Monate mit AdNW getippt, am Ende sogar mit ganz brauchbarer Geschwindigkeit.
> Nun bin ich aus diversen Gründen wieder bei Neo und musste feststellen, dass
> ich mit AdNW deutlich kollisionsfreier und damit gefühlt angenehmer tippen
> konnte. (Ganz schlimm mit Neo ist für mich zum Beispiel fast alles mit W,
> das Bigramm al oder zu langes Tippen auf links ohne Handwechsel.)
> Anderseits habe ich gemerkt, dass es für mich eine sehr feine Sache ist E
> und N, also die beiden häufigsten Buchstaben, mit den Zeigefingern zu
> tippen. Das bieten die aktuell diskutierten Layouts nicht mehr. Falls der
> Effekt von anderen bestätigt wird, könnte man das ja mal testweise für den
> Optimierer implementieren, indem man E und N festsetzt und dann die
> Ergebnisse mit anderen aktuellen Layouts vergleicht.
> 
> Dass die Kollisionen bei Neo wirklich zum Großteil an der Position des E
> hängen, wage ich zu bezweifeln: Bei AdNW liegt das E auf dem Mittelfinger
> und ich will nicht darüber spekulieren, wie gut AdNW genau wäre wenn E und A
> vertauscht werden. Aber es dürfte für E weniger Kollisionen geben als mit
> Neo, da die anderen Tasten für den Zeigefinger bei AdNW Ä, Q, O, . und ,
> sind.
> 
> Fazit: Wir haben es hier meiner Meinung nach mit zwei unabhängigen Kriterien
> zu tun. Kollisionen im allgemeinen sind eine oder sogar die Schwäche von
> Neo. Das der häufigste Buchstabe auf dem Zeigefinger scheint eine (bisher
> vielleicht unterschätzte) Stärke von Neo zu sein. Und dann wird es wie
> immer: Man kann nicht alle Kriterien gleichzeitig optimieren … naja ich wäre
> auf die Ergebnisse das obigen Versuchs gespannt. (Wer den Umgang mit den
> entsprechenden Tools sauber beherrscht könnte außerdem auch mal AdNW und
> AdNW E↔A bewerten lassen und die Ergebnisse herumschicken. Auch das würde
> zumindest mich interessieren)


Ich tippe seit gut drei Monaten auf der AdNW Version mit getauschtem A -
E und ich kenne noch nichts besseres bisher.

Das Layout entstammt direkt aus Andreas' Optimierer, wenn die
Nichtbenachbartheit der Finger ein bisschen höher bewertet wird als beim
Original AdNW:

ku,äq vcljf
hiaeo dtrnsß
yx.üö bpwmz

Punkt und Komma wandern weg vom E eine Stelle nach links, Q und die
Umlaute werden angepasst, die rechte Seite bleibt gleich dem Original
AdNW. Das Layout ist für einen Deutsch Englischen Korpus optimiert und
funktioniert in beiden Sprachen sehr gut.

Mittlerweile bin ich der Meinung, die Nichtbenachbartheit der Finger ist
das absolute KO Kriterium für die Flüssigkeit mit der sich eine Tastatur
tippen lässt. In Arnes gegenwärtigen Optimiererkriterien ist dies
zuungunsten vieler weiterer Kriterien ins Hintertreffen geraten und
müsste imho wieder größeres Gewicht bekommen.


Gruß

Wolf


-- 
Those who were seen dancing were thought to be insane
by those who could not hear the music...



signature.asc
Description: OpenPGP digital signature


Re: [Neo] Shortcuts unter KDE 4.6

2011-03-25 Diskussionsfäden Arne Babenhauserheide
On Friday 25 March 2011 10:12:28 Pascal Hauck wrote:
> ich habe nach der Installation von opensuse 11.4 mit KDE 4.6 die Belegung
> auf  Neo2 umgestellt¹ und dabei festgestellt, dass die Shortcuts nicht
> funktionieren.

Schau mal, ob du in KDE eingestellt hast, dass num-lock aktiv sein soll. Das
hat bei mir sehr viel zerschossen.

Habe es einfach auf keine Änderung gesetzt und jetzt tut alles.

Liebe Grüße,
Arne
--
1w6 sie zu achten,
sie alle zu finden,
in Spiele zu leiten
und sacht zu verbinden.
→ http://1w6.org



signature.asc
Description: This is a digitally signed message part.


[Neo] Shortcuts unter KDE 4.6

2011-03-25 Diskussionsfäden Pascal Hauck
Hallo,

ich habe nach der Installation von opensuse 11.4 mit KDE 4.6 die Belegung auf 
Neo2 umgestellt¹ und dabei festgestellt, dass die Shortcuts nicht 
funktionieren.
Ein Vergleich von Neo2 und QWERTZ mit xev offenbart den Unterschied: Während 
bei Neo2 ein KeyPress event und ein KeyRelease event gemeldet wird, ist es bei 
QWERTZ nur ein KeyRelease event. Vermutlich wird das KeyPress event als 
Shortcut erkannt und darum abgefangen.

Mir ist jedoch nicht klar, warum dieses abweichende Verhalten auftritt. 
Bewusst habe ich auch die Taste „Drucke“, um einen Screenshot zu erstellen, 
benutzt, da es hier zwischen Neo2 und QWERTZ keinen Unteschied geben dürfte. 
Da die einzige Änderung nur die Änderung der Belegung war, muss der Fehler am 
Neo‑Treiber liegen und somit behebbar sein.

Hat jemand eine Ahnung, woran es liegt? Wie sieht es mit einem Neo2 aus, dass 
entsprechend der xkb‑Installationsanleitung eingerichtet wurde?


Gruß,
Pascal

¹ zur Verdeutlichung: mit KDE‑Mitteln umgestellt, keine Installation 
entsprechend der Homepage