Re: [Neo] Wikipedia-Korpus selbstgemacht
Florian Janßen writes: > Die N-Gramme dauern noch, ich habe einen richtig saftigen Fehler in > meinem Skript: > Ich habe aus „Zufallswort “ nur die Bigramme > »Zu« »fa« »ll« »sw« »or« »t « erstellt, nicht aber die richtigen > »Zu« »uf« »fa« »al« »ll« »ls« »sw« »wo« »or« »rt« »t « erstellt. > > Also heute Nacht nochmal das gleiche von vorn. Vielleicht etwas umständlich, aber zuverlässig: http://article.gmane.org/gmane.comp.hardware.keyboards.layout.neo/4602 Mit netten Grüßen Karl
Re: [Neo] Wikipedia-Korpus selbstgemacht
Karl schrieb am 25.03.2011 um 11:07 Uhr: > Florian Janßen writes: > >> Wikipedia-Korpus ist fertig (knapp 9GB in 190 ~50MB Text-Dateien). Die >> N-Gramme sind auch fast fertig berechnet. > > Du hast meine Hochachtung für die wunderbare Leistung! > Ist es Dir möglich, mir eine der Textdateien zukommen zu lassen? Kann ich machen, ich kann eine kleinere Datei erzeugen. Oder eine Datei je Artikel und dir ein paar schicken. > Dessen Inhalt möchte ich mir genauer ansehen, denn er wird sicher > besser sein, als der des Leipziger Korpus. Bei Zeichencodierung > Unicode (UTF-8) wird der Wikipediakorpus der erste Korpus sein, der > vielleicht eine Aussage zu den Zeichen ermöglicht, die über den > ASCII-Zeichenvorrat hinausgehen. Da wäre ich mir nicht zu sicher. Die in der normalen Sprache nötigen Sonderzeichen sind auch nicht so häufig vorhanden, wie sie sein müssten, da recht oft die Ersatzzeichen benutzt wurden. Außerdem sind die Sonderzeichen für html und Wikitext unterrepräsentiert, da ich deren Spuren ja aus dem Text entfernt habe. Aber für Programmiersprachen & Co sollen wir vielleicht besser reine Sprachkorpora erstellen und die zu einem geringen Teil beimischen, bzw. darauf achten, dass deren häufige Bi- und Trigamme kein Worstcase produzieren. > Was (vermutlich nicht nur) mich interessiert: > Kann eine Anleitung erstellt werden, nach der die einzelnen Schritte so > umsetzen > kann, dass aus auf Wikimedia-Software basierende freie Wikis jeder selber den > Textkorpus extrahieren kann? Ja, aber ich bin noch nicht ganz mit meiner Methode zufrieden. Ich bin etwas rabiat zu Werke gegangen und habe im Zweifelsfall lieber einen Ausdruck entfernt, statt ihn stehen zu lassen um einen möglichst „sauberen“ Korpus zu erreichen. Auf der anderen Seite habe ich nur manuell den Wikisyntax entfernt, der mir aufgefallen ist. Ich hatte keine Lust mir die ellenlange php-Datei vorzunehmen, in der der ganze Zauber steckt. >> Ich bin mal gespannt, wie groß die Unterschiede zum Leipziger Korpus >> sind und wie sehr die sich in der Bewertung mit Arnes Optimierer auswirken. > > Da der Wikipediakorpus lexikalischer Natur ist, der Leipziger Korpus hingegen > zeitungslastig, erwarte ich deutliche Unterschiede - auch bei den n-Grammen. > Ich > bin ebenfalls auf erste Ergebnisse gespannt. Die N-Gramme dauern noch, ich habe einen richtig saftigen Fehler in meinem Skript: Ich habe aus „Zufallswort “ nur die Bigramme »Zu« »fa« »ll« »sw« »or« »t « erstellt, nicht aber die richtigen »Zu« »uf« »fa« »al« »ll« »ls« »sw« »wo« »or« »rt« »t « erstellt. Also heute Nacht nochmal das gleiche von vorn. Gruß Florian signature.asc Description: OpenPGP digital signature
Re: [Neo] Wikipedia-Korpus selbstgemacht
Hallo Florian, Florian Janßen ſchrieb am 25.03.2011 12:41 Uhr: Genau die habe ich verwendet. Und das sind eben gut 8 GB wenn man sie auspackt. Danke für den Hinweis, ich hätte auf weniger ›Ouput‹ (bzw. eine schlechtere Komprimierung) getippt! Man könnte das Entpacken aber vermeiden, wenn man das in eine Pipe packt: $ bzip2 -dc | verarbeite Viele Grüße, Dennis-ſ
Re: [Neo] Wikipedia-Korpus selbstgemacht
Dennis Heidsiek schrieb am 25.03.2011 um 12:26 Uhr: > Florian Janßen ſchrieb am 24.03.2011 13:51 Uhr: >> die Wikipedia Seiten und Artikel vom 01.02.2011 liegen mir als xml-Datei >> (gut 8GB) vor > und nur die Artikel herunterlädt (pages-articles.xml.bz2), sind es > sogar ›nur‹ noch 2.1 GB (Komprimiert, versteht sich ;) Genau die habe ich verwendet. Und das sind eben gut 8 GB wenn man sie auspackt. Gruß Florian
Re: [Neo] Wikipedia-Korpus selbstgemacht
Hallo allerseits, Florian Janßen ſchrieb am 24.03.2011 13:51 Uhr: die Wikipedia Seiten und Artikel vom 01.02.2011 liegen mir als xml-Datei (gut 8GB) vor und ich ein Skript geschrieben, dass mir die Relevanten Text-Knoten extrahiert. Vorerst erstelle ich für jeden Artikel einen eigene Datei. Bei 8GB muss aber Deine Leitung geblüht haben ;). Die aktuelle Version aller Seiten (pages-meta-current.xml.bz2) hat nur 3.3 GB, und wenn man zusätzlich die Benutzer- und Diskussionsſeiten wegläßt und nur die Artikel herunterlädt (pages-articles.xml.bz2), sind es sogar ›nur‹ noch 2.1 GB (Komprimiert, versteht sich ;): http://dumps.wikimedia.org/dewiki/latest/ Und hier ist nochmal die entsprechende Hilfeseite in der Wikipedia: https://secure.wikimedia.org/wikipedia/de/wiki/Wikipedia:Download Viele Grüße, Dennis-ſ
Re: [Neo] Ergonomische Tastaturbelegung führt zu Weltmeisterschaft
On Friday 25 March 2011 10:59:38 Wolf Belschner wrote: > In Arnes gegenwärtigen Optimiererkriterien ist dies > zuungunsten vieler weiterer Kriterien ins Hintertreffen geraten und > müsste imho wieder größeres Gewicht bekommen. Das hat es bereits, aber komplexer als bei AdNW, da auch Übergänge zwischen nichtbenachbarten Fingern mit Kosten belegt werden können (z.B. um Ein- oder Auswärtsbewegungen zu bevorzugen). Nur zwischen Zeige- und Mittelfinger gibt es kaum Nachbarkosten. Liebe Grüße, Arne signature.asc Description: This is a digitally signed message part.
Re: [Neo] Wikipedia-Korpus selbstgemacht
Florian Janßen writes: > Wikipedia-Korpus ist fertig (knapp 9GB in 190 ~50MB Text-Dateien). Die > N-Gramme sind auch fast fertig berechnet. Du hast meine Hochachtung für die wunderbare Leistung! Ist es Dir möglich, mir eine der Textdateien zukommen zu lassen? Dessen Inhalt möchte ich mir genauer ansehen, denn er wird sicher besser sein, als der des Leipziger Korpus. Bei Zeichencodierung Unicode (UTF-8) wird der Wikipediakorpus der erste Korpus sein, der vielleicht eine Aussage zu den Zeichen ermöglicht, die über den ASCII-Zeichenvorrat hinausgehen. Was (vermutlich nicht nur) mich interessiert: Kann eine Anleitung erstellt werden, nach der die einzelnen Schritte so umsetzen kann, dass aus auf Wikimedia-Software basierende freie Wikis jeder selber den Textkorpus extrahieren kann? > Ich bin mal gespannt, wie groß die Unterschiede zum Leipziger Korpus > sind und wie sehr die sich in der Bewertung mit Arnes Optimierer auswirken. Da der Wikipediakorpus lexikalischer Natur ist, der Leipziger Korpus hingegen zeitungslastig, erwarte ich deutliche Unterschiede - auch bei den n-Grammen. Ich bin ebenfalls auf erste Ergebnisse gespannt. Mit netten Grüßen Karl
Re: [Neo] Ergonomische Tastaturbelegung führt zu Weltmeisterschaft
2011/3/24 Arne Babenhauserheide > aber ich vermute, dass die Maximalgeschwindigkeit > viel mehr vom Hirn begrenzt wird > Das sehe ich auch so, grade Die Schmerzen kommen meines erachtens durch ein verkrampfen da das gehirn wiedersprüchliche Signale sendet. Das lernen des Layouts geschieht ja aktiv (grosshirn), durch training werden Bewegungsmusster im Kleinhirn abgelegt. Kommt es zu kollisionen (weil ein qwert befehl ein neo befehl überlagert) kommt es zur verkrampfung. Ich gehe auch davon aus das es sich ähnlich dem speed reading verhält. Sprich am Anfang tippt man Buchstabe für Buchstabe.. mit der Zeit liegen für bi und trigramme und später für komplette Wörter die Bewegungsabläufe vor. Ich denke nicht das ganze Sätze als Bewegungsinformation abgelegt werden können. Umgekehrt vermute ich das es ein deutlichen Geschwindigkeits unterschied zwischen kurzen und langen Wörtern gibt. Respektiv lässt sich eine Zeichenkette (ohne leerzeichen) nicht so schnell schreiben wie trainierte Wörter. Bezüglich Türkisch habe ich hier eine Tabelle gefunden http://www.sttmedia.de/buchstabenhaeufigkeit-tuerkisch Das Ü kommt seltener vor als gedacht :-) Aber interessant ist die Anzahl der Buchsaben mit über 5% Häufigkeit. Türkisch:A E I R N L (6) Englisch:E T A O N I S H R (9) Deutsch: E N I R S T A (7) Hindi: ा क े र (4)
Re: [Neo] Ergonomische Tastaturbelegung führt zu Weltmeisterschaft
Am 23.03.2011 20:18, schrieb Cornelis Hilscher: > Die Frage finde ich auch interessant. Bis vor kurzem habe ich für etwa zwei > Monate mit AdNW getippt, am Ende sogar mit ganz brauchbarer Geschwindigkeit. > Nun bin ich aus diversen Gründen wieder bei Neo und musste feststellen, dass > ich mit AdNW deutlich kollisionsfreier und damit gefühlt angenehmer tippen > konnte. (Ganz schlimm mit Neo ist für mich zum Beispiel fast alles mit W, > das Bigramm al oder zu langes Tippen auf links ohne Handwechsel.) > Anderseits habe ich gemerkt, dass es für mich eine sehr feine Sache ist E > und N, also die beiden häufigsten Buchstaben, mit den Zeigefingern zu > tippen. Das bieten die aktuell diskutierten Layouts nicht mehr. Falls der > Effekt von anderen bestätigt wird, könnte man das ja mal testweise für den > Optimierer implementieren, indem man E und N festsetzt und dann die > Ergebnisse mit anderen aktuellen Layouts vergleicht. > > Dass die Kollisionen bei Neo wirklich zum Großteil an der Position des E > hängen, wage ich zu bezweifeln: Bei AdNW liegt das E auf dem Mittelfinger > und ich will nicht darüber spekulieren, wie gut AdNW genau wäre wenn E und A > vertauscht werden. Aber es dürfte für E weniger Kollisionen geben als mit > Neo, da die anderen Tasten für den Zeigefinger bei AdNW Ä, Q, O, . und , > sind. > > Fazit: Wir haben es hier meiner Meinung nach mit zwei unabhängigen Kriterien > zu tun. Kollisionen im allgemeinen sind eine oder sogar die Schwäche von > Neo. Das der häufigste Buchstabe auf dem Zeigefinger scheint eine (bisher > vielleicht unterschätzte) Stärke von Neo zu sein. Und dann wird es wie > immer: Man kann nicht alle Kriterien gleichzeitig optimieren … naja ich wäre > auf die Ergebnisse das obigen Versuchs gespannt. (Wer den Umgang mit den > entsprechenden Tools sauber beherrscht könnte außerdem auch mal AdNW und > AdNW E↔A bewerten lassen und die Ergebnisse herumschicken. Auch das würde > zumindest mich interessieren) Ich tippe seit gut drei Monaten auf der AdNW Version mit getauschtem A - E und ich kenne noch nichts besseres bisher. Das Layout entstammt direkt aus Andreas' Optimierer, wenn die Nichtbenachbartheit der Finger ein bisschen höher bewertet wird als beim Original AdNW: ku,äq vcljf hiaeo dtrnsß yx.üö bpwmz Punkt und Komma wandern weg vom E eine Stelle nach links, Q und die Umlaute werden angepasst, die rechte Seite bleibt gleich dem Original AdNW. Das Layout ist für einen Deutsch Englischen Korpus optimiert und funktioniert in beiden Sprachen sehr gut. Mittlerweile bin ich der Meinung, die Nichtbenachbartheit der Finger ist das absolute KO Kriterium für die Flüssigkeit mit der sich eine Tastatur tippen lässt. In Arnes gegenwärtigen Optimiererkriterien ist dies zuungunsten vieler weiterer Kriterien ins Hintertreffen geraten und müsste imho wieder größeres Gewicht bekommen. Gruß Wolf -- Those who were seen dancing were thought to be insane by those who could not hear the music... signature.asc Description: OpenPGP digital signature
Re: [Neo] Shortcuts unter KDE 4.6
On Friday 25 March 2011 10:12:28 Pascal Hauck wrote: > ich habe nach der Installation von opensuse 11.4 mit KDE 4.6 die Belegung > auf Neo2 umgestellt¹ und dabei festgestellt, dass die Shortcuts nicht > funktionieren. Schau mal, ob du in KDE eingestellt hast, dass num-lock aktiv sein soll. Das hat bei mir sehr viel zerschossen. Habe es einfach auf keine Änderung gesetzt und jetzt tut alles. Liebe Grüße, Arne -- 1w6 sie zu achten, sie alle zu finden, in Spiele zu leiten und sacht zu verbinden. → http://1w6.org signature.asc Description: This is a digitally signed message part.
[Neo] Shortcuts unter KDE 4.6
Hallo, ich habe nach der Installation von opensuse 11.4 mit KDE 4.6 die Belegung auf Neo2 umgestellt¹ und dabei festgestellt, dass die Shortcuts nicht funktionieren. Ein Vergleich von Neo2 und QWERTZ mit xev offenbart den Unterschied: Während bei Neo2 ein KeyPress event und ein KeyRelease event gemeldet wird, ist es bei QWERTZ nur ein KeyRelease event. Vermutlich wird das KeyPress event als Shortcut erkannt und darum abgefangen. Mir ist jedoch nicht klar, warum dieses abweichende Verhalten auftritt. Bewusst habe ich auch die Taste „Drucke“, um einen Screenshot zu erstellen, benutzt, da es hier zwischen Neo2 und QWERTZ keinen Unteschied geben dürfte. Da die einzige Änderung nur die Änderung der Belegung war, muss der Fehler am Neo‑Treiber liegen und somit behebbar sein. Hat jemand eine Ahnung, woran es liegt? Wie sieht es mit einem Neo2 aus, dass entsprechend der xkb‑Installationsanleitung eingerichtet wurde? Gruß, Pascal ¹ zur Verdeutlichung: mit KDE‑Mitteln umgestellt, keine Installation entsprechend der Homepage