Re: [Neo] aktueller Entwicklungsstand
On 03/14/11 00:24, Pascal Hauck wrote: Am Sonntag, 13. März 2011, 17:59:54 schrieben Sie: [...] Die Englische Sprache soll – in angemessen geringem (!) Umfang – Berücksichtigung finden, der deutliche Schwerpunkt muss aber auf der Deutschen Sprache liegen. Tatsächlich schreibt die Mehrheit doch zu weit mehr als 90% aller Texte in der Muttersprache, wobei damit zu rechnen ist, dass bereits durch den deutschen Korpus häufige Anglizismen berücksichtigt werden. Für andere wesentliche Sprachen reicht es, einen kurzen Blick auf die häufigsten 20 Wörter zu werfen. Die meisten wie z.B. „le“ oder „mundo“ werden ohnehin gut funktionieren¹. Für andere wie „avoir“ oder “soy“ kann eine Variation versucht werden, sofern daraus nicht andere Einbußen erwachsen. [...] Wie wäre es hier, da der Optimierer ja automatisch arbeitet (?), eine Abstufung anzubieten: z.B.: 100% deutsch (ev. als default 75 % deutsch + 25 % englisch 50 / 50 25 % deutsch + 75 % englisch 100 % englisch (falls bedarf besteht) diese Aufteilung kann man beliebig fein weitertreiben... (auch wenn das Ganze die Auswahl der Texte nicht obsolet macht)... dies könnte mann (fast) in Beliebiger Sprach-Kombination ebenso durchführen (ev. sogar mit mehreren)... wobei ich durchaus einsehe, das diese Flexibilität an anderer Stelle kostet! Peter
Re: [Neo] aktueller Entwicklungsstand
On Monday 14 March 2011 02:31:59 Florian Janßen wrote: ich steh quasi vor dem gleichen Problem wie Pascal, ich bin nach Neo 2.0 für ne Zeit ausgestiegen, habe jetzt wieder Luft, weiß aber nicht genau wie wo was gerade läuft. Dann ein kurzes update: Ein paar Leute hier experimentieren mit Hardware. Bald sollten auch die Truly Ergonomics ankommen (→ testen, wie gut die sind). Bis Ende letzten Jahres haben wir gemeinsame Optimierungsläufe gemacht und am Optimierer gefeilt. Dann habe ich mich entschieden, einen Langzeittest mit HAEIK zu machen, um zu sehen, wie es in hohen Geschwindigkeiten ist. Wenn ich dabei Probleme gesehen habe, habe ich den Optimierer angepasst, um die in Zukunft zu vermeiden, aber nicht am Layout rumgedoktort (nachdem ich das einmal probiert habe und es mir wochenlang Probleme gemacht hat). Ein praktisches Beispiel für die Schwächen (die inzwischen vom Optimierer vermieden werden): „azyklischer Pfand“ („azyk“ ist sozusagen ein worst-case Wort). xyoü, pclmvß haeik dtnrsw zäöu. bgjqf Arne Babenhauserheide schrieb am 13.03.2011 um 17:59 Uhr: TNRS ist hat die richtigen Parameter, aber auch den rein deutschen Korpus. Wo finde ich die Belegung? https://bitbucket.org/ArneBab/evolve-keyboard- layout/src/ef3cab7756b3/empirie/haeik.txt xyoü, pclmvß haeik dtnrsw zäöu. bgjqf https://bitbucket.org/ArneBab/evolve-keyboard- layout/raw/ef3cab7756b3/empirie/haeik.xmodmap Die xkbmap habe ich leider noch nicht drin, da sie bei mir leider nicht lief. Wie sehen die (vorläufigen) höheren Ebenen aus? 3 und 4 bleiben, 5 und 6 wandern mit? Jupp. Da brauche ich definitiv Hilfe - kann (und will) ich nicht alleine entscheiden und kann es auch alleine nicht gut genug stemmen, denke ich. Aufgabe: Freie Texte zusammenstellen, zusammen so 100-300 MiB repräsentativen Text, gerne auch mehr. Wieviel Aufwand ist es eine Belegung gegen einen neuen Korpus zu testen? Mit vorgenerierten nGrammen (1gramme.txt, 2gramme.txt, 3gramme.txt) braucht es nur ein paar Sekunden. Beim einfachen testen verschiedene Korporae(¿Schreibung?): Bei 300 MiB Korpus etwa 20min. Bei einem kleineren Korpus entsprechend kürzer: ./check_neo.py -v --check-string lay out grund ebene string form --file korpus.utf8.txt ./bigramm_statistik.py --svg --svg-output neu.svg -l lay out grund ebene string form --file korpus.utf8.txt Jeweils etwas über 10min bei 300MiB Korpus. Das gibt die Statistiken und das SVG. Liebe Grüße, Arne -- Ich hab' nichts zu verbergen – hab ich gedacht: - http://draketo.de/licht/lieder/ich-hab-nichts-zu-verbergen !! ~/.xmodmap !! Haeik lime !! !! based upon the Modifiers and levels 3 – 7 of !! !! German Neo-Layout !! adopted 2004 by Hanno Behrens hanno.behr...@gmx.de !! inspired by Dvorak/de-ergo http://www.goebel-consult.de/de-ergo/ !! Authors: !! Benjamin Kellermann Benjamin dot Kellermann at gmx dot Germany !! Erik Streb mail at erikstreb dot de !! Pascal Hauck neo at pascalhauck dot de !! !! Other Questions: !! diskussion at neo-layout dot org !! !! $Revision: 2332 $, $Date: 2010-08-06 08:42:35 +0200 (Fr, 06. Aug 2010) $ !! http://neo-layout.org !! !! To try the layout in this file, simply do xmodmap file. !! To load the layout in this file at X startup, simply store it as !! ~/.xmodmap !! !! !! This file generated by generiere_xmodmap.py !! Ruthard Baudach rt...@web.de ! Ebenen ! Ebene 1: normal ! Ebene 2: Shift ! Ebene 3: Mod3 ! Ebene 4: Mod4 (zum Markieren Shift+Mod4) ! Ebene 5: Shift+Mod3 ! Ebene 6: Mod3+Mod4 (in dieser Reihenfolge!) ! Ebene 7: wird (bis auf technisch bedingte Ausnahmen) nicht belegt ! Multi_key=Compose (keine eigene Ebene): Mod3+Tab or right window key ! Feststellen/Shift_Lock: Shift+Shift ! Mod4_Lock: Mod4(rechts)+Mod4(links) ! Reihenfolge der Ebenen in der Xmodmap: !Ebene1 Ebene2 Ebene3 Ebene5 Ebene4 Ebene4+Sh Ebene6 Ebene7 ! Modifier definition clear Lock clear Mod2 ! Mod2 war NumLock ! clear Mod3 clear Mod5 ! Shift ! 50=left 62=right ! Shift+Shift ergibt ein ShiftLock (wie Caps, wirkt aber auf alle Zeichen, nicht nur auf Großbuchstaben) ! Der Lock lässt sich durch ein weiteres Shift lösen. ! Eigentlich (siehe Referenz) sollte hier ein CapsLock stehen. keycode 50 = Shift_L Shift_Lock keycode 62 = Shift_R Shift_Lock ! Mod3 ! 66=left 51=right ! Make CapsLock an modifier called Mod3 (similar to AltGr) (Mode_switch or ISO_Group_Shift is for 3rd and 4th level) ! Make former CapsLock and qwertz-# to Mode_switch or ISO_Group_Shift ! Mod3(links) (=Qwertz-Caps)
Re: [Neo] aktueller Entwicklungsstand
On 13.03.2011 17:59, Arne Babenhauserheide wrote: Aktuell würde ich die Parameter nun als gut einstufen. Was jetzt v.a. noch fehlt ist ein passender Korpus: Wie soll die Verteilung auf Deutsch und Englisch sein, und welche Texte nutzen wir? Sollen noch andere Sprachen rein (Stichwort: Europäisches Layout)? Da brauche ich definitiv Hilfe - kann (und will) ich nicht alleine entscheiden und kann es auch alleine nicht gut genug stemmen, denke ich. Aufgabe: Freie Texte zusammenstellen, zusammen so 100-300 MiB repräsentativen Text, gerne auch mehr. Das geht vielleicht Michael Gattinger an. Ich würde, wie schon mehrfach vorgeschlagen, _keinen_ Mehrsprachen-Mischkorpus erstellen. Stattdessen sollte der Algorithmus auf einen homogenen Korpus (Deutsch) losgelassen werden, und unter den besten Layouts wählt man dann dasjenige aus, das weitere Kriterien erfüllt, beispielsweise gute Werte mit anderen Korpora (Englisch, …) oder einfache Erlernbarkeit. – Mœsi
Re: [Neo] aktueller Entwicklungsstand
Arne Babenhauserheide writes: Wichtig: HAEIK ist nur für Testzwecke. Grund: Rein Deutscher Korpus und veraltete Parameter. TNRS ist hat die richtigen Parameter, aber auch den rein deutschen Korpus. Beim Überarbeiten des Leizpiger Korpus für unsere Belange musste ich feststellen: Rein deutschsprachig ist der Leipziger Korpus nicht! Der von uns verwendete modifizierte Leipziger Korpus enthält neben vielen Anglizismen auch englischsprachige Sätze. Der Anteil englischsprachiger Sätze dürfte eine Nebenwirkung der automatisierten Erfassung von Sätzen bei der Erstellung des Leipziger Korpus sein. [...] Was jetzt v.a. noch fehlt ist ein passender Korpus: Wie soll die Verteilung auf Deutsch und Englisch sein, und welche Texte nutzen wir? Sollen noch andere Sprachen rein (Stichwort: Europäisches Layout)? Der modifizierte Leipziger Korpus deckt einen so großen Teil ab, dass ich ihn bereits als gut geeigneten bzw. passenden Korpus ansehe. Neo ist für die deutsche Sprache vorgesehen. Davon sollten wir nicht abweichen, folglich also keinen gemischtsprachigen Korpus heranziehen. Von Neo erwarte sicher nicht nur ich eine für die deutsche Sprache optimierte Tastenbelegung. Wenn ich mich richtig erinnere, hatte Ulf Bro erkannt, dass sich auf für für die deutsche Sprache optimierte Tastenbelegungen auch englischsprachige Texte sehr gut tippen lassen, ohne dass bei der Optimierung die englische Sprache als Optimierungskriterium eingeflossen ist. Da die automatische Optimierung für Neo 3 (ein herzliches Dankeschön für die daran Mitwirkenden!) mehrere gute Vorschläge liefern wird, könnten die besten Vorschläge später zusätzlich auf einen englischsprachigen Korpus angewandt werden. Als zweites Kriterium könnte die Tippbarkeit englischsprachiger Texte überprüft werden - aber bitte nicht eher, als wenn einige wenige, für die deutsche Sprache optimierte, endgültige Kandidaten feststehen. Eine europäische Tastenbelegung? Damit würde Neo sich viel zu weit von Ziel entfernen, eine für die deutsche Sprache optimierte Tastenbelegung zu schaffen. Die Toten Tasten, wie sie bei Neo2 belegt sind, decken die Amtssprachen der deutschsprachigen Länder (Deutschland, Österreich, Schweiz, (Luxemburg)) hinreichend gut ab. Die wenigen Menschen, die tatsächlich viele weitere europäische Sprachen tippen (wollen/müssen), finden mit einer anderen dafür bereits ausgelegten Tastenbelegung eine Lösung, z. B. die Europatastatur. Nebenbei: Die Neo-Ebene mit den griechischen Buchstaben verstehe ich als einfache Möglichkeit der Eingabe von wissenschaftlich verwendeten Zeichen, allenfalls einzelner Wörter, aber nicht, um damit lange Texte in griechischer Sprache zu tippen (wofür eine für die Sprache optimierte Tastenbelegung erforderlich wäre). Also müssen die griechischen Zeichen der Belegung der ersten Ebene folgen. Aufgabe: Freie Texte zusammenstellen, zusammen so 100-300 MiB repräsentativen Text, gerne auch mehr. Nachdem ich den Leipziger Korpus für unsere Belange überarbeitet habe, scheue ich den Aufwand, weitere Korpora für weitere Sprachen anzugehen. Wenn es um einen gemischtsprachigen Korpus ginge, würde ich mich sogar weigern, da ich das für den falschen Weg halte - naja, 4 % Englisch und 96 % Deutsch ginge so gerade noch. Es bereitet viel Freude, in alle möglichen Richtungen zu probieren. Dabei kann riskiert man, vom Weg abzukommen. Insgesamt möchte ich anregen, den Hauptaugenmerk darauf zu richten, Neo für die deutsche Sprache zu optimieren. Wenn zunächst dafür mehrere gleichgute Tastenbelegungen für die deutsche Sprache gefunden sind, dann können diejenigen in die engere Wahl gezogen werden, deren Überprüfung für einen englischsprachigen Korpus bessere Ergebnisse liefern. Auf die Weise bleibt die Optimierung für die deutsche Sprache an erster Stelle und englischsprachige Texte werden sich dennoch gut tippen lassen. Mit netten Grüßen Karl
Re: [Neo] aktueller Entwicklungsstand
On Monday 14 March 2011 13:37:38 Karl Köckemann wrote: Nachdem ich den Leipziger Korpus für unsere Belange überarbeitet habe, scheue ich den Aufwand, weitere Korpora für weitere Sprachen anzugehen. Wenn es um einen gemischtsprachigen Korpus ginge, würde ich mich sogar weigern, da ich das für den falschen Weg halte - naja, 4 % Englisch und 96 % Deutsch ginge so gerade noch. Mein einziges Problem mit dem Leipziger Korpus ist das hier: -- -- -- -- -- -- # Conditions of use The Leipzig Corpora Collection contain text from publicly accessible sources. All data have been processed automatically so that it is not possible to reconstruct the original source texts. The corpora are protected by copyright. They are made available on the condition that they may be used for scientific purposes only and not passed on to third parties. Any use of the data must be duly documented and referenced. Commercial use of the data requires the prior written consent of the Leipzig University department for Natural Language Processing. -- -- -- -- -- -- → http://corpora.uni-leipzig.de/download.html Dürfen wir ihn überhaupt nutzen? (Ja, ich weiß, dass Lizenzen nervig sein können. Ich kann aber nichts dafür, dass die Uni-Leipzig so besch… Lizenzregeln aufstellt - wir dürfen den Korpus nichtmal weitergeben! - falls du von denen das offizielle OK haben solltest, wäre das was ganz anderes) Liebe Grüße, Arne signature.asc Description: This is a digitally signed message part.
Re: [Neo] aktueller Entwicklungsstand
Moin! Dem möchte ich mich uneingeschränkt anschließen. Zitat aus dem Wiki: „Neo – Die freie, für die deutsche Sprache ergonomisch optimierte Tastaturbelegung“. Wie wir wissen, sind die europäischen Sprachen nicht sooo verschieden, dass eine auf Deutsch optimierte Tastatur alle anderen Sprachen untippbar sein lässt, eher im Gegenteil wird sie (vor allem im Vergleich zu QWERTZ) auch dort teiloptimiert sein – das heißt, nicht optimal, aber eben trotzdem gut. Unser Fokus sollte auf Deutsch liegen (siehe Zitat), danach auf Erlernbarkeit (Ergonomie ohne User ist sinnlos) und erst dann auf anderen Sprachen. Auch bei der Frage, welche Sprache dann einbezogen werden soll, kann ich mir keine Einigkeit vorstellen. Klar ist Englisch die Weltsprache. Aber Französisch-, Spanisch- und Italienischsprecher gibt es auch viele und wie lange Englisch diese Position behalten wird, ist auch unklar. Der kleinste gemeinsame Nenner ist bei Neo die deutsche Sprache und auf diesen sollten wir uns konzentrieren. Zum Thema, wo man einen Korpus herbekommt: http://www.gutenberg.org/wiki/Gutenberg:No_Cost_or_Freedom%3F und http://www.gutenberg.org/wiki/German_Language_Books_(Bookshelf) Lange Wikipediaartikel dürften z.B. auch geeignet sein. Grüße, Marco8 Am 14.03.2011, 12:09 Uhr, schrieb Matthias Wächter matth...@waechter.wiz.at: On 13.03.2011 17:59, Arne Babenhauserheide wrote: Aktuell würde ich die Parameter nun als gut einstufen. Was jetzt v.a. noch fehlt ist ein passender Korpus: Wie soll die Verteilung auf Deutsch und Englisch sein, und welche Texte nutzen wir? Sollen noch andere Sprachen rein (Stichwort: Europäisches Layout)? Da brauche ich definitiv Hilfe - kann (und will) ich nicht alleine entscheiden und kann es auch alleine nicht gut genug stemmen, denke ich. Aufgabe: Freie Texte zusammenstellen, zusammen so 100-300 MiB repräsentativen Text, gerne auch mehr. Das geht vielleicht Michael Gattinger an. Ich würde, wie schon mehrfach vorgeschlagen, _keinen_ Mehrsprachen-Mischkorpus erstellen. Stattdessen sollte der Algorithmus auf einen homogenen Korpus (Deutsch) losgelassen werden, und unter den besten Layouts wählt man dann dasjenige aus, das weitere Kriterien erfüllt, beispielsweise gute Werte mit anderen Korpora (Englisch, …) oder einfache Erlernbarkeit. – Mœsi
Re: [Neo] aktueller Entwicklungsstand
Arne Babenhauserheide writes: On Monday 14 March 2011 13:37:38 Karl Köckemann wrote: Nachdem ich den Leipziger Korpus für unsere Belange überarbeitet habe, scheue ich den Aufwand, weitere Korpora für weitere Sprachen anzugehen. Wenn es um einen gemischtsprachigen Korpus ginge, würde ich mich sogar weigern, da ich das für den falschen Weg halte - naja, 4 % Englisch und 96 % Deutsch ginge so gerade noch. Mein einziges Problem mit dem Leipziger Korpus ist das hier: -- -- -- -- -- -- # Conditions of use The Leipzig Corpora Collection contain text from publicly accessible sources. All data have been processed automatically so that it is not possible to reconstruct the original source texts. The corpora are protected by copyright. They are made available on the condition that they may be used for scientific purposes only and not passed on to third parties. Any use of the data must be duly documented and referenced. Commercial use of the data requires the prior written consent of the Leipzig University department for Natural Language Processing. -- -- -- -- -- -- → http://corpora.uni-leipzig.de/download.html Dürfen wir ihn überhaupt nutzen? (Ja, ich weiß, dass Lizenzen nervig sein können. Ich kann aber nichts dafür, dass die Uni-Leipzig so besch… Lizenzregeln aufstellt - wir dürfen den Korpus nichtmal weitergeben! - falls du von denen das offizielle OK haben solltest, wäre das was ganz anderes) Vielen Dank für den wichtigen Hinweis! Soeben habe ich in einer E-Mail and Uni Leipzig erfragt, ob sie Bedenken haben oder eine Nutzungserlaubnis ausstellen würden. Warten wir die Antwort ab. Im Zweifelsfall müssten wir tatsächlich selber einen hinreichend großen Korpus erstellen. Da ich ein Autorenforum technisch unterstütze, kann ich mir vorstellen, dass sie bereit wären, einen Teil ihrer Werke für einen Korpus bereitzustellen. Immerhin wären es unterschiedliche Schreibstile in korrekt geschriebener Neuer Rechtschreibung, die zwar nur einen Teil zu einem Korpus beitragen könnten, der aber wenig Überarbeitung erfordert. Auch könnten wir Verlage um die Bereitstellung von Texten bitten - auch wissenschaftliche. Für das von uns angestrebte Ziel könnte es auf die Weise gelingen, einen auf aktuelle Texte basierenden Korpus zu erschaffen. Klar können auch ein paar Werke hinein, deren Autoren über 70 Jahre verstorben sind, aber die Texte bedürfen mehr Aufbereitungsarbeit, um in einen Korpus einfließen zu können. Mit netten Grüßen Karl
Re: [Neo] aktueller Entwicklungsstand
Marco Antoni writes: Zum Thema, wo man einen Korpus herbekommt: http://www.gutenberg.org/wiki/Gutenberg:No_Cost_or_Freedom%3F und http://www.gutenberg.org/wiki/German_Language_Books_(Bookshelf) Lange Wikipediaartikel dürften z.B. auch geeignet sein. Ohne jetzt erneut einen genaueren Blick auf die Gutenberg-Projekt-Seiten geworfen zu haben, gehe ich davon aus, dass deren Dateien sich nicht verändert haben. Sie erfordern leider sehr hohen Arbeitsaufwand, bis sie für die Aufnahme in einen für uns geeigneten Korpus hergerichtet sind. Einerseits ist der Sprachstil hoffnungslos veraltet; eine Umstellung auf Neue Rechtschreibung muss vollzogen werden; das Strippen von sich wiederholenden Gutenberg-Projekt-spezifischen ist unumgänglich. Wikipedia wäre eine feine Grundlage, die leider noch (viel) mehr Aufwand beim Strippen der Quelltexte erfordert. Wenn es nicht anders geht, dann werden die beiden Möglichkeiten angegangen werden müssen. Mit netten Grüßen Karl