Re: [Neo] aktueller Entwicklungsstand

2011-03-14 Diskussionsfäden Peter Bartosch

On 03/14/11 00:24, Pascal Hauck wrote:

Am Sonntag, 13. März 2011, 17:59:54 schrieben Sie:

[...]

Die Englische Sprache soll – in angemessen geringem (!) Umfang –
Berücksichtigung finden, der deutliche Schwerpunkt muss aber auf der Deutschen
Sprache liegen. Tatsächlich schreibt die Mehrheit doch zu weit mehr als 90%
aller Texte in der Muttersprache, wobei damit zu rechnen ist, dass bereits
durch den deutschen Korpus häufige Anglizismen berücksichtigt werden.

Für andere wesentliche Sprachen reicht es, einen kurzen Blick auf die
häufigsten 20 Wörter zu werfen. Die meisten wie z.B. „le“ oder „mundo“ werden
ohnehin gut funktionieren¹. Für andere wie „avoir“ oder “soy“ kann eine
Variation versucht werden, sofern daraus nicht andere Einbußen erwachsen.


[...]

Wie wäre es hier, da der Optimierer ja automatisch arbeitet (?), eine Abstufung 
anzubieten:

z.B.:

100% deutsch (ev. als default
75 % deutsch + 25 % englisch
50 / 50
25 % deutsch + 75 % englisch
100 % englisch (falls bedarf besteht)

diese Aufteilung kann man beliebig fein weitertreiben...

(auch wenn das Ganze die Auswahl der Texte nicht obsolet macht)...


dies könnte mann (fast) in Beliebiger Sprach-Kombination ebenso durchführen 
(ev. sogar mit mehreren)...


wobei ich durchaus einsehe, das diese Flexibilität an anderer Stelle kostet!



Peter



Re: [Neo] aktueller Entwicklungsstand

2011-03-14 Diskussionsfäden Arne Babenhauserheide
On Monday 14 March 2011 02:31:59 Florian Janßen wrote:
 ich steh quasi vor dem gleichen Problem wie Pascal, ich bin nach Neo 2.0
 für ne Zeit ausgestiegen, habe jetzt wieder Luft, weiß aber nicht genau
 wie wo was gerade läuft.

Dann ein kurzes update: Ein paar Leute hier experimentieren mit Hardware. Bald 
sollten auch die Truly Ergonomics ankommen (→ testen, wie gut die sind). 

Bis Ende letzten Jahres haben wir gemeinsame Optimierungsläufe gemacht und am 
Optimierer gefeilt. Dann habe ich mich entschieden, einen Langzeittest mit 
HAEIK zu machen, um zu sehen, wie es in hohen Geschwindigkeiten ist. Wenn ich 
dabei Probleme gesehen habe, habe ich den Optimierer angepasst, um die in 
Zukunft zu vermeiden, aber nicht am Layout rumgedoktort (nachdem ich das 
einmal probiert habe und es mir wochenlang Probleme gemacht hat). 

Ein praktisches Beispiel für die Schwächen (die inzwischen vom Optimierer 
vermieden werden): „azyklischer Pfand“ („azyk“ ist sozusagen ein worst-case 
Wort).

xyoü, pclmvß
haeik dtnrsw
zäöu. bgjqf

 Arne Babenhauserheide schrieb am 13.03.2011 um 17:59 Uhr:
  TNRS ist hat die richtigen Parameter, aber auch den rein
  deutschen Korpus.
 
 Wo finde ich die Belegung? 

https://bitbucket.org/ArneBab/evolve-keyboard-
layout/src/ef3cab7756b3/empirie/haeik.txt

xyoü, pclmvß
haeik dtnrsw
zäöu. bgjqf

https://bitbucket.org/ArneBab/evolve-keyboard-
layout/raw/ef3cab7756b3/empirie/haeik.xmodmap

Die xkbmap habe ich leider noch nicht drin, da sie bei mir leider nicht lief.

 Wie sehen die (vorläufigen) höheren Ebenen
 aus? 3 und 4 bleiben, 5 und 6 wandern mit?

Jupp.

  Da brauche ich definitiv Hilfe - kann (und
  will) ich nicht alleine entscheiden und kann es auch alleine nicht gut
  genug stemmen, denke ich. Aufgabe: Freie Texte zusammenstellen,
  zusammen so 100-300 MiB repräsentativen Text, gerne auch mehr.
 
 Wieviel Aufwand ist es eine Belegung gegen einen neuen Korpus zu testen?

Mit vorgenerierten nGrammen (1gramme.txt, 2gramme.txt, 3gramme.txt) braucht es 
nur ein paar Sekunden. 

Beim einfachen testen verschiedene Korporae(¿Schreibung?): Bei 300 MiB Korpus 
etwa 20min. Bei einem kleineren Korpus entsprechend kürzer: 

./check_neo.py -v --check-string lay out
grund ebene
string form --file korpus.utf8.txt

./bigramm_statistik.py --svg --svg-output neu.svg -l lay out
grund ebene
string form --file korpus.utf8.txt

Jeweils etwas über 10min bei 300MiB Korpus.

Das gibt die Statistiken und das SVG.

Liebe Grüße, 
Arne
--
Ich hab' nichts zu verbergen – hab ich gedacht: 

- http://draketo.de/licht/lieder/ich-hab-nichts-zu-verbergen

!! ~/.xmodmap
!! Haeik lime

!!
!! based upon the Modifiers and levels 3 – 7 of
!! 
!! German Neo-Layout
!! adopted 2004 by Hanno Behrens hanno.behr...@gmx.de
!! inspired by Dvorak/de-ergo  http://www.goebel-consult.de/de-ergo/
!! Authors: 
!!  Benjamin Kellermann Benjamin dot Kellermann at gmx dot Germany
!!  Erik Streb mail at erikstreb dot de
!!  Pascal Hauck neo at pascalhauck dot de
!! 
!! Other Questions:
!!  diskussion at neo-layout dot org
!! 
!! $Revision: 2332 $, $Date: 2010-08-06 08:42:35 +0200 (Fr, 06. Aug 2010) $
!! http://neo-layout.org
!!
!! To try the layout in this file, simply do xmodmap file.
!! To load the layout in this file at X startup, simply store it as
!! ~/.xmodmap
!!
!!
!! This file generated by generiere_xmodmap.py
!! Ruthard Baudach rt...@web.de



! Ebenen

! Ebene 1: normal
! Ebene 2: Shift
! Ebene 3: Mod3
! Ebene 4: Mod4 (zum Markieren Shift+Mod4)
! Ebene 5: Shift+Mod3
! Ebene 6: Mod3+Mod4 (in dieser Reihenfolge!)
! Ebene 7: wird (bis auf technisch bedingte Ausnahmen) nicht belegt
! Multi_key=Compose (keine eigene Ebene): Mod3+Tab or right window key
! Feststellen/Shift_Lock: Shift+Shift
! Mod4_Lock: Mod4(rechts)+Mod4(links)

! Reihenfolge der Ebenen in der Xmodmap:
!Ebene1  Ebene2  Ebene3  Ebene5  Ebene4  Ebene4+Sh  Ebene6 Ebene7



! Modifier definition

clear Lock
clear Mod2
! Mod2 war NumLock !
clear Mod3
clear Mod5


! Shift

! 50=left 62=right
! Shift+Shift ergibt ein ShiftLock (wie Caps, wirkt aber auf alle Zeichen, 
nicht nur auf Großbuchstaben)
! Der Lock lässt sich durch ein weiteres Shift lösen.
! Eigentlich (siehe Referenz) sollte hier ein CapsLock stehen.
keycode 50 =  Shift_L Shift_Lock
keycode 62 =  Shift_R Shift_Lock


! Mod3

! 66=left 51=right
! Make CapsLock an modifier called Mod3 (similar to AltGr) (Mode_switch or 
ISO_Group_Shift is for 3rd and 4th level)
! Make former CapsLock and qwertz-# to Mode_switch or ISO_Group_Shift
! Mod3(links) (=Qwertz-Caps) 

Re: [Neo] aktueller Entwicklungsstand

2011-03-14 Diskussionsfäden Matthias Wächter

On 13.03.2011 17:59, Arne Babenhauserheide wrote:

Aktuell würde ich die Parameter nun als gut einstufen. Was jetzt v.a. noch
fehlt ist ein passender Korpus: Wie soll die Verteilung auf Deutsch und
Englisch sein, und welche Texte nutzen wir? Sollen noch andere Sprachen rein
(Stichwort: Europäisches Layout)? Da brauche ich definitiv Hilfe - kann (und
will) ich nicht alleine entscheiden und kann es auch alleine nicht gut genug
stemmen, denke ich. Aufgabe: Freie Texte zusammenstellen, zusammen so 100-300
MiB repräsentativen Text, gerne auch mehr. Das geht vielleicht Michael
Gattinger an.


Ich würde, wie schon mehrfach vorgeschlagen, _keinen_ Mehrsprachen-Mischkorpus erstellen. Stattdessen sollte der Algorithmus auf einen homogenen 
Korpus (Deutsch) losgelassen werden, und unter den besten Layouts wählt man dann dasjenige aus, das weitere Kriterien erfüllt, beispielsweise gute 
Werte mit anderen Korpora (Englisch, …) oder einfache Erlernbarkeit.


– Mœsi



Re: [Neo] aktueller Entwicklungsstand

2011-03-14 Diskussionsfäden Karl Köckemann
Arne Babenhauserheide writes:
 Wichtig: HAEIK ist nur für Testzwecke. Grund: Rein Deutscher Korpus und 
 veraltete Parameter. TNRS ist hat die richtigen Parameter, aber auch den rein 
 deutschen Korpus.

Beim Überarbeiten des Leizpiger Korpus für unsere Belange musste ich
feststellen: Rein deutschsprachig ist der Leipziger Korpus nicht!
Der von uns verwendete modifizierte Leipziger Korpus enthält neben vielen
Anglizismen auch englischsprachige Sätze. Der Anteil englischsprachiger Sätze
dürfte eine Nebenwirkung der automatisierten Erfassung von Sätzen bei der
Erstellung des Leipziger Korpus sein.

 [...] Was jetzt v.a. noch fehlt ist ein passender Korpus: Wie soll die
 Verteilung auf Deutsch und Englisch sein, und welche Texte nutzen wir?
 Sollen noch andere Sprachen rein (Stichwort: Europäisches Layout)?

Der modifizierte Leipziger Korpus deckt einen so großen Teil ab, dass ich ihn
bereits als gut geeigneten bzw. passenden Korpus ansehe.

Neo ist für die deutsche Sprache vorgesehen. Davon sollten wir nicht abweichen,
folglich also keinen gemischtsprachigen Korpus heranziehen.
Von Neo erwarte sicher nicht nur ich eine für die deutsche Sprache optimierte
Tastenbelegung.

Wenn ich mich richtig erinnere, hatte Ulf Bro erkannt, dass sich auf für für die
deutsche Sprache optimierte Tastenbelegungen auch englischsprachige Texte sehr
gut tippen lassen, ohne dass bei der Optimierung die englische Sprache als
Optimierungskriterium eingeflossen ist.
Da die automatische Optimierung für Neo 3 (ein herzliches Dankeschön für die
daran Mitwirkenden!) mehrere gute Vorschläge liefern wird, könnten die besten
Vorschläge später zusätzlich auf einen englischsprachigen Korpus angewandt
werden. Als zweites Kriterium könnte die Tippbarkeit englischsprachiger Texte
überprüft werden - aber bitte nicht eher, als wenn einige wenige, für die
deutsche Sprache optimierte, endgültige Kandidaten feststehen.

Eine europäische Tastenbelegung? Damit würde Neo sich viel zu weit von Ziel
entfernen, eine für die deutsche Sprache optimierte Tastenbelegung zu schaffen.
Die Toten Tasten, wie sie bei Neo2 belegt sind, decken die Amtssprachen der
deutschsprachigen Länder (Deutschland, Österreich, Schweiz, (Luxemburg))
hinreichend gut ab.

Die wenigen Menschen, die tatsächlich viele weitere europäische Sprachen tippen
(wollen/müssen), finden mit einer anderen dafür bereits ausgelegten
Tastenbelegung eine Lösung, z. B. die Europatastatur.

Nebenbei: Die Neo-Ebene mit den griechischen Buchstaben verstehe ich als
einfache Möglichkeit der Eingabe von wissenschaftlich verwendeten Zeichen,
allenfalls einzelner Wörter, aber nicht, um damit lange Texte in griechischer
Sprache zu tippen (wofür eine für die Sprache optimierte Tastenbelegung
erforderlich wäre). Also müssen die griechischen Zeichen der Belegung der ersten
Ebene folgen.

 Aufgabe: Freie Texte zusammenstellen, zusammen so 100-300 MiB repräsentativen
 Text, gerne auch mehr.

Nachdem ich den Leipziger Korpus für unsere Belange überarbeitet habe, scheue
ich den Aufwand, weitere Korpora für weitere Sprachen anzugehen. Wenn es um
einen gemischtsprachigen Korpus ginge, würde ich mich sogar weigern, da ich das
für den falschen Weg halte - naja, 4 % Englisch und 96 % Deutsch ginge so gerade
noch.


Es bereitet viel Freude, in alle möglichen Richtungen zu probieren. Dabei kann
riskiert man, vom Weg abzukommen.

Insgesamt möchte ich anregen, den Hauptaugenmerk darauf zu richten, Neo für die
deutsche Sprache zu optimieren.

Wenn zunächst dafür mehrere gleichgute Tastenbelegungen für die deutsche Sprache
gefunden sind, dann können diejenigen in die engere Wahl gezogen werden, deren
Überprüfung für einen englischsprachigen Korpus bessere Ergebnisse liefern.

Auf die Weise bleibt die Optimierung für die deutsche Sprache an erster Stelle
und englischsprachige Texte werden sich dennoch gut tippen lassen.

Mit netten Grüßen
Karl






Re: [Neo] aktueller Entwicklungsstand

2011-03-14 Diskussionsfäden Arne Babenhauserheide
On Monday 14 March 2011 13:37:38 Karl Köckemann wrote:
 Nachdem ich den Leipziger Korpus für unsere Belange überarbeitet habe,
 scheue ich den Aufwand, weitere Korpora für weitere Sprachen anzugehen.
 Wenn es um einen gemischtsprachigen Korpus ginge, würde ich mich sogar
 weigern, da ich das für den falschen Weg halte - naja, 4 % Englisch und 96
 % Deutsch ginge so gerade noch.

Mein einziges Problem mit dem Leipziger Korpus ist das hier:

-- -- -- -- -- --
# Conditions of use

The Leipzig Corpora Collection contain text from publicly accessible sources.
All data have been processed automatically so that it is not possible to
reconstruct the original source texts.

The corpora are protected by copyright.  They are made available on the
condition that they may be used for scientific purposes only and not passed on
to third parties. Any use of the data must be duly documented and referenced.
Commercial use of the data requires the prior written consent of the Leipzig
University department for Natural Language Processing.
-- -- -- -- -- --
→ http://corpora.uni-leipzig.de/download.html

Dürfen wir ihn überhaupt nutzen?

(Ja, ich weiß, dass Lizenzen nervig sein können. Ich kann aber nichts dafür,
dass die Uni-Leipzig so besch… Lizenzregeln aufstellt - wir dürfen den Korpus
nichtmal weitergeben! - falls du von denen das offizielle OK haben solltest,
wäre das was ganz anderes)

Liebe Grüße,
Arne

signature.asc
Description: This is a digitally signed message part.


Re: [Neo] aktueller Entwicklungsstand

2011-03-14 Diskussionsfäden Marco Antoni

Moin!

Dem möchte ich mich uneingeschränkt anschließen. Zitat aus dem Wiki: „Neo  
– Die freie, für die deutsche Sprache ergonomisch optimierte  
Tastaturbelegung“. Wie wir wissen, sind die europäischen Sprachen nicht  
sooo verschieden, dass eine auf Deutsch optimierte Tastatur alle anderen  
Sprachen untippbar sein lässt, eher im Gegenteil wird sie (vor allem im  
Vergleich zu QWERTZ) auch dort teiloptimiert sein – das heißt, nicht  
optimal, aber eben trotzdem gut. Unser Fokus sollte auf Deutsch liegen  
(siehe Zitat), danach auf Erlernbarkeit (Ergonomie ohne User ist sinnlos)  
und erst dann auf anderen Sprachen.


Auch bei der Frage, welche Sprache dann einbezogen werden soll, kann ich  
mir keine Einigkeit vorstellen. Klar ist Englisch die Weltsprache. Aber  
Französisch-, Spanisch- und Italienischsprecher gibt es auch viele und wie  
lange Englisch diese Position behalten wird, ist auch unklar. Der kleinste  
gemeinsame Nenner ist bei Neo die deutsche Sprache und auf diesen sollten  
wir uns konzentrieren.


Zum Thema, wo man einen Korpus herbekommt:  
http://www.gutenberg.org/wiki/Gutenberg:No_Cost_or_Freedom%3F und  
http://www.gutenberg.org/wiki/German_Language_Books_(Bookshelf)

Lange Wikipediaartikel dürften z.B. auch geeignet sein.

Grüße, Marco8

Am 14.03.2011, 12:09 Uhr, schrieb Matthias Wächter  
matth...@waechter.wiz.at:



On 13.03.2011 17:59, Arne Babenhauserheide wrote:
Aktuell würde ich die Parameter nun als gut einstufen. Was jetzt v.a.  
noch

fehlt ist ein passender Korpus: Wie soll die Verteilung auf Deutsch und
Englisch sein, und welche Texte nutzen wir? Sollen noch andere Sprachen  
rein
(Stichwort: Europäisches Layout)? Da brauche ich definitiv Hilfe - kann  
(und
will) ich nicht alleine entscheiden und kann es auch alleine nicht gut  
genug
stemmen, denke ich. Aufgabe: Freie Texte zusammenstellen, zusammen so  
100-300

MiB repräsentativen Text, gerne auch mehr. Das geht vielleicht Michael
Gattinger an.


Ich würde, wie schon mehrfach vorgeschlagen, _keinen_  
Mehrsprachen-Mischkorpus erstellen. Stattdessen sollte der Algorithmus  
auf einen homogenen Korpus (Deutsch) losgelassen werden, und unter den  
besten Layouts wählt man dann dasjenige aus, das weitere Kriterien  
erfüllt, beispielsweise gute Werte mit anderen Korpora (Englisch, …)  
oder einfache Erlernbarkeit.


– Mœsi




Re: [Neo] aktueller Entwicklungsstand

2011-03-14 Diskussionsfäden Karl Köckemann
Arne Babenhauserheide writes:

 On Monday 14 March 2011 13:37:38 Karl Köckemann wrote:
  Nachdem ich den Leipziger Korpus für unsere Belange überarbeitet habe,
  scheue ich den Aufwand, weitere Korpora für weitere Sprachen anzugehen.
  Wenn es um einen gemischtsprachigen Korpus ginge, würde ich mich sogar
  weigern, da ich das für den falschen Weg halte - naja, 4 % Englisch und 96
  % Deutsch ginge so gerade noch.
 
 Mein einziges Problem mit dem Leipziger Korpus ist das hier: 
 
 -- -- -- -- -- --
 # Conditions of use
 
 The Leipzig Corpora Collection contain text from publicly accessible sources. 
 All data have been processed automatically so that it is not possible to 
 reconstruct the original source texts. 
 
 The corpora are protected by copyright.  They are made available on the 
 condition that they may be used for scientific purposes only and not passed 
 on 
 to third parties. Any use of the data must be duly documented and referenced. 
 Commercial use of the data requires the prior written consent of the Leipzig 
 University department for Natural Language Processing.
 -- -- -- -- -- --
 → http://corpora.uni-leipzig.de/download.html
 
 Dürfen wir ihn überhaupt nutzen? 
 
 (Ja, ich weiß, dass Lizenzen nervig sein können. Ich kann aber nichts dafür, 
 dass die Uni-Leipzig so besch… Lizenzregeln aufstellt - wir dürfen den Korpus 
 nichtmal weitergeben! - falls du von denen das offizielle OK haben solltest, 
 wäre das was ganz anderes)

Vielen Dank für den wichtigen Hinweis!
Soeben habe ich in einer E-Mail and Uni Leipzig erfragt, ob sie Bedenken haben
oder eine Nutzungserlaubnis ausstellen würden. Warten wir die Antwort ab.

Im Zweifelsfall müssten wir tatsächlich selber einen hinreichend großen Korpus
erstellen. Da ich ein Autorenforum technisch unterstütze, kann ich mir
vorstellen, dass sie bereit wären, einen Teil ihrer Werke für einen Korpus
bereitzustellen. Immerhin wären es unterschiedliche Schreibstile in korrekt
geschriebener Neuer Rechtschreibung, die zwar nur einen Teil zu einem Korpus
beitragen könnten, der aber wenig Überarbeitung erfordert.

Auch könnten wir Verlage um die Bereitstellung von Texten bitten - auch
wissenschaftliche. Für das von uns angestrebte Ziel könnte es auf die Weise
gelingen, einen auf aktuelle Texte basierenden Korpus zu erschaffen.

Klar können auch ein paar Werke hinein, deren Autoren über 70 Jahre verstorben
sind, aber die Texte bedürfen mehr Aufbereitungsarbeit, um in einen Korpus
einfließen zu können.

Mit netten Grüßen
Karl






Re: [Neo] aktueller Entwicklungsstand

2011-03-14 Diskussionsfäden Karl Köckemann
Marco Antoni writes:

 Zum Thema, wo man einen Korpus herbekommt:  
 http://www.gutenberg.org/wiki/Gutenberg:No_Cost_or_Freedom%3F und  
 http://www.gutenberg.org/wiki/German_Language_Books_(Bookshelf)
 Lange Wikipediaartikel dürften z.B. auch geeignet sein.

Ohne jetzt erneut einen genaueren Blick auf die Gutenberg-Projekt-Seiten
geworfen zu haben, gehe ich davon aus, dass deren Dateien sich nicht verändert
haben. Sie erfordern leider sehr hohen Arbeitsaufwand, bis sie für die Aufnahme
in einen für uns geeigneten Korpus hergerichtet sind. Einerseits ist der
Sprachstil hoffnungslos veraltet; eine Umstellung auf Neue Rechtschreibung muss
vollzogen werden; das Strippen von sich wiederholenden
Gutenberg-Projekt-spezifischen ist unumgänglich.

Wikipedia wäre eine feine Grundlage, die leider noch (viel) mehr Aufwand beim
Strippen der Quelltexte erfordert.

Wenn es nicht anders geht, dann werden die beiden Möglichkeiten angegangen
werden müssen.

Mit netten Grüßen
Karl