Re: [Neo] aktueller Entwicklungsstand

2011-04-17 Diskussionsfäden Michael Gattinger

Am 13.03.2011 17:59, schrieb Arne Babenhauserheide:

Aktuell würde ich die Parameter nun als gut einstufen. Was jetzt v.a. noch
fehlt ist ein passender Korpus: Wie soll die Verteilung auf Deutsch und
Englisch sein, und welche Texte nutzen wir? Sollen noch andere Sprachen rein
(Stichwort: Europäisches Layout)? Da brauche ich definitiv Hilfe - kann (und
will) ich nicht alleine entscheiden und kann es auch alleine nicht gut genug
stemmen, denke ich. Aufgabe: Freie Texte zusammenstellen, zusammen so 100-300
MiB repräsentativen Text, gerne auch mehr. Das geht vielleicht Michael
Gattinger an.


Dazu lese man
Re: [Neo] Wikipedia-Korpus selbstgemacht vom 17.04.2011 23:48



Re: [Neo] aktueller Entwicklungsstand

2011-04-17 Diskussionsfäden Michael Gattinger

Am 14.03.2011 11:48, schrieb Arne Babenhauserheide:

Da brauche ich definitiv Hilfe - kann (und
will) ich nicht alleine entscheiden und kann es auch alleine nicht gut
genug stemmen, denke ich. Aufgabe: Freie Texte zusammenstellen,
zusammen so 100-300 MiB repräsentativen Text, gerne auch mehr.

Wieviel Aufwand ist es eine Belegung gegen einen neuen Korpus zu testen?

Mit vorgenerierten nGrammen (1gramme.txt, 2gramme.txt, 3gramme.txt) braucht es
nur ein paar Sekunden.

Welche Syntax erfordern diese Typisierten Dateien?
Oder anders: Welche Infos stehen da drin?
Beispiel?

en 17,5%
er 12,3%
ar 5,7%

???

(!Fantasiewerte)



Re: [Neo] aktueller Entwicklungsstand

2011-04-17 Diskussionsfäden Michael Gattinger

Am 14.03.2011 18:24, schrieb Marco Antoni:

Dem möchte ich mich uneingeschränkt anschließen. [...][...][...]

Auch bei der Frage, welche Sprache dann einbezogen werden soll, kann 
ich mir keine Einigkeit vorstellen. Klar ist Englisch die Weltsprache. 
Aber Französisch-, Spanisch- und Italienischsprecher gibt es auch 
viele und wie lange Englisch diese Position behalten wird, ist auch 
unklar. Der kleinste gemeinsame Nenner ist bei Neo die deutsche 
Sprache und auf diesen sollten wir uns konzentrieren.


Ich würde, wie schon mehrfach vorgeschlagen, _keinen_ 
Mehrsprachen-Mischkorpus erstellen. Stattdessen sollte der 
Algorithmus auf einen homogenen Korpus (Deutsch) losgelassen werden, 
und unter den besten Layouts wählt man dann dasjenige aus, das 
weitere Kriterien erfüllt, beispielsweise gute Werte mit anderen 
Korpora (Englisch, …) oder einfache Erlernbarkeit.


– Mœsi
Die Frage ist hier nicht ob Englisch die Weltsprache ist oder eine 
andere, sondern: Wieviele Deutsche schreiben Englisch / Italienisch / 
Französisch? ... Statt für die deutsche Sprache  Tastatatur könnte 
man auch sagen für die deutschen  Tastatur. Da Englisch in 
ziemlich vielen Schulen als erste Fremdsprache gelehrt wird und andere 
Sprachen eher weniger als erste Fremdsprache, ist der Anteil der 
Englischschreibenden denke ich deutlich höher als Französischschreibende.


Mit freundlichen Grüßen

Michael Gattinger



Re: [Neo] aktueller Entwicklungsstand

2011-04-17 Diskussionsfäden Arne Babenhauserheide
Hi Michael,

On Monday 18 April 2011 02:10:16 Michael Gattinger wrote:
 Am 14.03.2011 11:48, schrieb Arne Babenhauserheide:
 Welche Syntax erfordern diese Typisierten Dateien?
 Oder anders: Welche Infos stehen da drin?
 Beispiel?

 en 17,5%
 er 12,3%
 ar 5,7%

Da stehen einfach Häufigkeiten drin:

12345 en
  4538 de
  12 ∃ℝ

Die werden dann auch direkt als Zahlen und Strings ausgewertet:

num, bi = zeile.lstrip().split()


Also

beliebig viele Leerzeichenzahlleerzeichenngram

Liebe Grüße,
Arne

signature.asc
Description: This is a digitally signed message part.


Re: [Neo] aktueller Entwicklungsstand

2011-03-21 Diskussionsfäden Alexander Koch
Hallo,

 Ein praktisches Beispiel für die Schwächen (die inzwischen vom Optimierer
 vermieden werden): „azyklischer Pfand“ („azyk“ ist sozusagen ein worst-case
 Wort).
Apropos ‚worst-case Wort‘, bei Neo2 und vermutlich auch in deinem Layout ist 
„Karlsruhe“ auffällig schwieriger zu tippen als in Qwertz, was natürlich auch 
an dem Wort (und dessen dicken Konsonantencluster) selbst liegt. Ist halt 
etwas nervig für Leute, die dort wohnen.

Apropos Europäisches Layout, auch wenn es hier ab und zu Kritik an der Idee 
gibt, würde ich diese Idee gerne auch mal ausprobieren. Wenn es noch andere 
Interessierte gibt, könnte man durchaus mal eine Korpus-Recherche und einen 
Optimiererlauf wagen, oder entsprechende Sprachgewichte diskutieren. Mich 
würde daran v.a. interessieren, wie stark/schwach so ein Layout für die 
einzelnen Sprachen ausfallen würde. Es wird ja immer diskutiert, dass dieses 
Layout für die einzelnen Sprachen nicht optimal sein kann, aber eigentlich 
weiß man gar nichts Quantitatives über diesen Effekt. Wenn sich dieser Effekt 
auf Deutsch/Englisch etc. wegen der Ähnlichkeit einiger europäischer Sprachen 
nicht so stark auswirken würde, wäre ich durchaus bereit gegen kleinere 
Geschwindigkeitseinbußen für die deutsche Sprache ein europäisches Layout 
vorzuziehen. 

Viele Grüße,
Aleχ



Re: [Neo] aktueller Entwicklungsstand

2011-03-20 Diskussionsfäden Peter Fischer
Am 18.03.2011 09:24, schrieb Florian Janßen:

 Nach dem man die richigen Knoten aus dem XML geladen hat (das kann sogar
 ich ;) ) können Script-Junkies bestimmt ein paar schicke Regexen drauf
 loslassen (kann ich nicht). Aber das ist wahrscheinlich genau das was
 Karl mit „mehr Aufwand beim Strippen der Quelltexte“ meinte.

 Gruß Florian


Sorry, bin zur Zeit privat ziemlich offline.

Was ich meinte war, dass da die Texte *der Artikel* drin sind und man
das ganze redundante Wikipedia-Bedien-Gedöns und Kommentar/Historie
nicht wegschnipseln braucht.
Ausserdem kann man das bequem zu Hause und offline machen, ohne mit
Mechanize oder anderem Geschütz auf die Webseite selbst zu müssen.

Andereseits: mit einem generischen Webscraper könnte man nicht nur WP,
sondern auch andere Seiten abgrasen - je breiter und aktueller die
Quellen, desto mehr Aussagekraft hat der Korpus.
(das spiegel.de Archiv liefert sicher andere (ältere) Korpusse)


Servus, Peter



Re: [Neo] aktueller Entwicklungsstand

2011-03-18 Diskussionsfäden Schubi
Am 17.03.2011 23:54, schrieb Florian Janßen:
 Am 16.03.2011 15:32, schrieb Peter Fischer:
 Am 14.03.2011 18:41, schrieb Karl Köckemann:

 Wikipedia wäre eine feine Grundlage, die leider noch (viel) mehr 
 Aufwand beim Strippen der Quelltexte erfordert.
 
 [Link zu Wikipedia-XML-Dump]-
 
 Hast du da mal reingeschaut? Das kann man noch nicht so verwenden, da es
 den Text im Wiki-Syntax enthält.
 
 Gruß Florian
 

Ist aber auch kein Problem, das raus zu pasen, oder?

Gruß,
Schubi



Re: [Neo] aktueller Entwicklungsstand

2011-03-18 Diskussionsfäden Florian Janßen
Schubi schrieb am 18.03.2011 um 07:57 Uhr:
 Am 17.03.2011 23:54, schrieb Florian Janßen:
 Am 16.03.2011 15:32, schrieb Peter Fischer:
 Am 14.03.2011 18:41, schrieb Karl Köckemann:

 Wikipedia wäre eine feine Grundlage, die leider noch (viel) mehr 
 Aufwand beim Strippen der Quelltexte erfordert.

 [Link zu Wikipedia-XML-Dump]-

 Hast du da mal reingeschaut? Das kann man noch nicht so verwenden, da es
 den Text im Wiki-Syntax enthält.

 Ist aber auch kein Problem, das raus zu pasen, oder?

Nach dem man die richigen Knoten aus dem XML geladen hat (das kann sogar
ich ;) ) können Script-Junkies bestimmt ein paar schicke Regexen drauf
loslassen (kann ich nicht). Aber das ist wahrscheinlich genau das was
Karl mit „mehr Aufwand beim Strippen der Quelltexte“ meinte.

Gruß Florian




signature.asc
Description: OpenPGP digital signature


Re: [Neo] aktueller Entwicklungsstand

2011-03-17 Diskussionsfäden Florian Janßen
Am 16.03.2011 15:32, schrieb Peter Fischer:
 Am 14.03.2011 18:41, schrieb Karl Köckemann:

 Wikipedia wäre eine feine Grundlage, die leider noch (viel) mehr 
 Aufwand beim Strippen der Quelltexte erfordert.

 [Link zu Wikipedia-XML-Dump]-

Hast du da mal reingeschaut? Das kann man noch nicht so verwenden, da es
den Text im Wiki-Syntax enthält.

Gruß Florian



Re: [Neo] aktueller Entwicklungsstand

2011-03-15 Diskussionsfäden Florian Janßen
Arne Babenhauserheide schrieb am 14.03.2011 um 15:09 Uhr:
 Dürfen wir ihn überhaupt nutzen? 

Ich bin kein Jurist ;)

 (Ja, ich weiß, dass Lizenzen nervig sein können. Ich kann aber nichts dafür, 
 dass die Uni-Leipzig so besch… Lizenzregeln aufstellt

Wahrscheinlich hat die Uni auch nicht so viel Wahl, weil sie die
Bedingungen der Quellen akzeptieren (müssen).

 - wir dürfen den Korpus nichtmal weitergeben!

Wozu willst du den Korpus weitergeben?

Was ist mit dem DWDS-Kernkorpus (100⋅10⁶ Tokens)? Auf der Suche nach der
Lizenz des Kernkorpus konnte ich nur:

„2. Rechtevereinbarungen

Bereits frühzeitig hat das Projekt Nutzungsvereinbarungen mit Verlagen
wie Aufbau, Diogenes Verlag, Eichborn, S. Fischer Verlagsgruppe,
Hoffmann  Campe, Kiepenheuer  Witsch, K.G. Saur Verlag, Spiegel,
Suhrkamp, Ullstein, ZEIT sowie öffentlichen und privaten Textgebern
(z.B. Deutsches Rundfunkarchiv, Digitale Bibliothek) getroffen. Somit
kann das Projekt z.B. Werke von Thomas und Heinrich Mann, Martin Walser,
Heinrich Böll, Jürgen Habermas oder Victor Klemperer für die
wortbezogene Internetrecherche zur Verfügung stellen.“

Über das dlexDB lassen sich direkt Zeichenhäufigkeiten, Bi- und
Trigramme abrufen.

Gruß Florian



signature.asc
Description: OpenPGP digital signature


Re: [Neo] aktueller Entwicklungsstand

2011-03-15 Diskussionsfäden Arne Babenhauserheide
On Monday 14 March 2011 17:32:06 Karl Köckemann wrote:
 Vielen Dank für den wichtigen Hinweis!
 Soeben habe ich in einer E-Mail and Uni Leipzig erfragt, ob sie Bedenken
 haben oder eine Nutzungserlaubnis ausstellen würden. Warten wir die Antwort
 ab.

Ich hoffe, sie sagen zu! Die Info „Optimiert mit dem Referenzkorpus der Uni
Leipzig“ (Korpus beigelegt) kann nämlich (denke ich) helfen, Neo (3) zu
verbreiten.

 Im Zweifelsfall müssten wir tatsächlich selber einen hinreichend großen
 Korpus erstellen. Da ich ein Autorenforum technisch unterstütze, kann ich
 mir vorstellen, dass sie bereit wären, einen Teil ihrer Werke für einen
 Korpus bereitzustellen.

Das wäre klasse! Ich würde auch Werke von mir beisteuern, und Wikipedia,
Wikinews und öffentliche Mailinglisten sind ja auch da.

 Auch könnten wir Verlage um die Bereitstellung von Texten bitten - auch
 wissenschaftliche. Für das von uns angestrebte Ziel könnte es auf die Weise
 gelingen, einen auf aktuelle Texte basierenden Korpus zu erschaffen.

Dazu gibt es noch Google Books (deren Bigramme sind einfach 2 Wörter
hintereinander, reichen also aus, um Statistiken für einen massiven Korpus zu
erzeugen).

 Klar können auch ein paar Werke hinein, deren Autoren über 70 Jahre
 verstorben sind, aber die Texte bedürfen mehr Aufbereitungsarbeit, um in
 einen Korpus einfließen zu können.

Leider…

Liebe Grüße,
Arne

signature.asc
Description: This is a digitally signed message part.


Re: [Neo] aktueller Entwicklungsstand

2011-03-14 Diskussionsfäden Peter Bartosch

On 03/14/11 00:24, Pascal Hauck wrote:

Am Sonntag, 13. März 2011, 17:59:54 schrieben Sie:

[...]

Die Englische Sprache soll – in angemessen geringem (!) Umfang –
Berücksichtigung finden, der deutliche Schwerpunkt muss aber auf der Deutschen
Sprache liegen. Tatsächlich schreibt die Mehrheit doch zu weit mehr als 90%
aller Texte in der Muttersprache, wobei damit zu rechnen ist, dass bereits
durch den deutschen Korpus häufige Anglizismen berücksichtigt werden.

Für andere wesentliche Sprachen reicht es, einen kurzen Blick auf die
häufigsten 20 Wörter zu werfen. Die meisten wie z.B. „le“ oder „mundo“ werden
ohnehin gut funktionieren¹. Für andere wie „avoir“ oder “soy“ kann eine
Variation versucht werden, sofern daraus nicht andere Einbußen erwachsen.


[...]

Wie wäre es hier, da der Optimierer ja automatisch arbeitet (?), eine Abstufung 
anzubieten:

z.B.:

100% deutsch (ev. als default
75 % deutsch + 25 % englisch
50 / 50
25 % deutsch + 75 % englisch
100 % englisch (falls bedarf besteht)

diese Aufteilung kann man beliebig fein weitertreiben...

(auch wenn das Ganze die Auswahl der Texte nicht obsolet macht)...


dies könnte mann (fast) in Beliebiger Sprach-Kombination ebenso durchführen 
(ev. sogar mit mehreren)...


wobei ich durchaus einsehe, das diese Flexibilität an anderer Stelle kostet!



Peter



Re: [Neo] aktueller Entwicklungsstand

2011-03-14 Diskussionsfäden Arne Babenhauserheide
On Monday 14 March 2011 02:31:59 Florian Janßen wrote:
 ich steh quasi vor dem gleichen Problem wie Pascal, ich bin nach Neo 2.0
 für ne Zeit ausgestiegen, habe jetzt wieder Luft, weiß aber nicht genau
 wie wo was gerade läuft.

Dann ein kurzes update: Ein paar Leute hier experimentieren mit Hardware. Bald 
sollten auch die Truly Ergonomics ankommen (→ testen, wie gut die sind). 

Bis Ende letzten Jahres haben wir gemeinsame Optimierungsläufe gemacht und am 
Optimierer gefeilt. Dann habe ich mich entschieden, einen Langzeittest mit 
HAEIK zu machen, um zu sehen, wie es in hohen Geschwindigkeiten ist. Wenn ich 
dabei Probleme gesehen habe, habe ich den Optimierer angepasst, um die in 
Zukunft zu vermeiden, aber nicht am Layout rumgedoktort (nachdem ich das 
einmal probiert habe und es mir wochenlang Probleme gemacht hat). 

Ein praktisches Beispiel für die Schwächen (die inzwischen vom Optimierer 
vermieden werden): „azyklischer Pfand“ („azyk“ ist sozusagen ein worst-case 
Wort).

xyoü, pclmvß
haeik dtnrsw
zäöu. bgjqf

 Arne Babenhauserheide schrieb am 13.03.2011 um 17:59 Uhr:
  TNRS ist hat die richtigen Parameter, aber auch den rein
  deutschen Korpus.
 
 Wo finde ich die Belegung? 

https://bitbucket.org/ArneBab/evolve-keyboard-
layout/src/ef3cab7756b3/empirie/haeik.txt

xyoü, pclmvß
haeik dtnrsw
zäöu. bgjqf

https://bitbucket.org/ArneBab/evolve-keyboard-
layout/raw/ef3cab7756b3/empirie/haeik.xmodmap

Die xkbmap habe ich leider noch nicht drin, da sie bei mir leider nicht lief.

 Wie sehen die (vorläufigen) höheren Ebenen
 aus? 3 und 4 bleiben, 5 und 6 wandern mit?

Jupp.

  Da brauche ich definitiv Hilfe - kann (und
  will) ich nicht alleine entscheiden und kann es auch alleine nicht gut
  genug stemmen, denke ich. Aufgabe: Freie Texte zusammenstellen,
  zusammen so 100-300 MiB repräsentativen Text, gerne auch mehr.
 
 Wieviel Aufwand ist es eine Belegung gegen einen neuen Korpus zu testen?

Mit vorgenerierten nGrammen (1gramme.txt, 2gramme.txt, 3gramme.txt) braucht es 
nur ein paar Sekunden. 

Beim einfachen testen verschiedene Korporae(¿Schreibung?): Bei 300 MiB Korpus 
etwa 20min. Bei einem kleineren Korpus entsprechend kürzer: 

./check_neo.py -v --check-string lay out
grund ebene
string form --file korpus.utf8.txt

./bigramm_statistik.py --svg --svg-output neu.svg -l lay out
grund ebene
string form --file korpus.utf8.txt

Jeweils etwas über 10min bei 300MiB Korpus.

Das gibt die Statistiken und das SVG.

Liebe Grüße, 
Arne
--
Ich hab' nichts zu verbergen – hab ich gedacht: 

- http://draketo.de/licht/lieder/ich-hab-nichts-zu-verbergen

!! ~/.xmodmap
!! Haeik lime

!!
!! based upon the Modifiers and levels 3 – 7 of
!! 
!! German Neo-Layout
!! adopted 2004 by Hanno Behrens hanno.behr...@gmx.de
!! inspired by Dvorak/de-ergo  http://www.goebel-consult.de/de-ergo/
!! Authors: 
!!  Benjamin Kellermann Benjamin dot Kellermann at gmx dot Germany
!!  Erik Streb mail at erikstreb dot de
!!  Pascal Hauck neo at pascalhauck dot de
!! 
!! Other Questions:
!!  diskussion at neo-layout dot org
!! 
!! $Revision: 2332 $, $Date: 2010-08-06 08:42:35 +0200 (Fr, 06. Aug 2010) $
!! http://neo-layout.org
!!
!! To try the layout in this file, simply do xmodmap file.
!! To load the layout in this file at X startup, simply store it as
!! ~/.xmodmap
!!
!!
!! This file generated by generiere_xmodmap.py
!! Ruthard Baudach rt...@web.de



! Ebenen

! Ebene 1: normal
! Ebene 2: Shift
! Ebene 3: Mod3
! Ebene 4: Mod4 (zum Markieren Shift+Mod4)
! Ebene 5: Shift+Mod3
! Ebene 6: Mod3+Mod4 (in dieser Reihenfolge!)
! Ebene 7: wird (bis auf technisch bedingte Ausnahmen) nicht belegt
! Multi_key=Compose (keine eigene Ebene): Mod3+Tab or right window key
! Feststellen/Shift_Lock: Shift+Shift
! Mod4_Lock: Mod4(rechts)+Mod4(links)

! Reihenfolge der Ebenen in der Xmodmap:
!Ebene1  Ebene2  Ebene3  Ebene5  Ebene4  Ebene4+Sh  Ebene6 Ebene7



! Modifier definition

clear Lock
clear Mod2
! Mod2 war NumLock !
clear Mod3
clear Mod5


! Shift

! 50=left 62=right
! Shift+Shift ergibt ein ShiftLock (wie Caps, wirkt aber auf alle Zeichen, 
nicht nur auf Großbuchstaben)
! Der Lock lässt sich durch ein weiteres Shift lösen.
! Eigentlich (siehe Referenz) sollte hier ein CapsLock stehen.
keycode 50 =  Shift_L Shift_Lock
keycode 62 =  Shift_R Shift_Lock


! Mod3

! 66=left 51=right
! Make CapsLock an modifier called Mod3 (similar to AltGr) (Mode_switch or 
ISO_Group_Shift is for 3rd and 4th level)
! Make former CapsLock and qwertz-# to Mode_switch or ISO_Group_Shift
! Mod3(links) (=Qwertz-Caps) 

Re: [Neo] aktueller Entwicklungsstand

2011-03-14 Diskussionsfäden Matthias Wächter

On 13.03.2011 17:59, Arne Babenhauserheide wrote:

Aktuell würde ich die Parameter nun als gut einstufen. Was jetzt v.a. noch
fehlt ist ein passender Korpus: Wie soll die Verteilung auf Deutsch und
Englisch sein, und welche Texte nutzen wir? Sollen noch andere Sprachen rein
(Stichwort: Europäisches Layout)? Da brauche ich definitiv Hilfe - kann (und
will) ich nicht alleine entscheiden und kann es auch alleine nicht gut genug
stemmen, denke ich. Aufgabe: Freie Texte zusammenstellen, zusammen so 100-300
MiB repräsentativen Text, gerne auch mehr. Das geht vielleicht Michael
Gattinger an.


Ich würde, wie schon mehrfach vorgeschlagen, _keinen_ Mehrsprachen-Mischkorpus erstellen. Stattdessen sollte der Algorithmus auf einen homogenen 
Korpus (Deutsch) losgelassen werden, und unter den besten Layouts wählt man dann dasjenige aus, das weitere Kriterien erfüllt, beispielsweise gute 
Werte mit anderen Korpora (Englisch, …) oder einfache Erlernbarkeit.


– Mœsi



Re: [Neo] aktueller Entwicklungsstand

2011-03-14 Diskussionsfäden Karl Köckemann
Arne Babenhauserheide writes:
 Wichtig: HAEIK ist nur für Testzwecke. Grund: Rein Deutscher Korpus und 
 veraltete Parameter. TNRS ist hat die richtigen Parameter, aber auch den rein 
 deutschen Korpus.

Beim Überarbeiten des Leizpiger Korpus für unsere Belange musste ich
feststellen: Rein deutschsprachig ist der Leipziger Korpus nicht!
Der von uns verwendete modifizierte Leipziger Korpus enthält neben vielen
Anglizismen auch englischsprachige Sätze. Der Anteil englischsprachiger Sätze
dürfte eine Nebenwirkung der automatisierten Erfassung von Sätzen bei der
Erstellung des Leipziger Korpus sein.

 [...] Was jetzt v.a. noch fehlt ist ein passender Korpus: Wie soll die
 Verteilung auf Deutsch und Englisch sein, und welche Texte nutzen wir?
 Sollen noch andere Sprachen rein (Stichwort: Europäisches Layout)?

Der modifizierte Leipziger Korpus deckt einen so großen Teil ab, dass ich ihn
bereits als gut geeigneten bzw. passenden Korpus ansehe.

Neo ist für die deutsche Sprache vorgesehen. Davon sollten wir nicht abweichen,
folglich also keinen gemischtsprachigen Korpus heranziehen.
Von Neo erwarte sicher nicht nur ich eine für die deutsche Sprache optimierte
Tastenbelegung.

Wenn ich mich richtig erinnere, hatte Ulf Bro erkannt, dass sich auf für für die
deutsche Sprache optimierte Tastenbelegungen auch englischsprachige Texte sehr
gut tippen lassen, ohne dass bei der Optimierung die englische Sprache als
Optimierungskriterium eingeflossen ist.
Da die automatische Optimierung für Neo 3 (ein herzliches Dankeschön für die
daran Mitwirkenden!) mehrere gute Vorschläge liefern wird, könnten die besten
Vorschläge später zusätzlich auf einen englischsprachigen Korpus angewandt
werden. Als zweites Kriterium könnte die Tippbarkeit englischsprachiger Texte
überprüft werden - aber bitte nicht eher, als wenn einige wenige, für die
deutsche Sprache optimierte, endgültige Kandidaten feststehen.

Eine europäische Tastenbelegung? Damit würde Neo sich viel zu weit von Ziel
entfernen, eine für die deutsche Sprache optimierte Tastenbelegung zu schaffen.
Die Toten Tasten, wie sie bei Neo2 belegt sind, decken die Amtssprachen der
deutschsprachigen Länder (Deutschland, Österreich, Schweiz, (Luxemburg))
hinreichend gut ab.

Die wenigen Menschen, die tatsächlich viele weitere europäische Sprachen tippen
(wollen/müssen), finden mit einer anderen dafür bereits ausgelegten
Tastenbelegung eine Lösung, z. B. die Europatastatur.

Nebenbei: Die Neo-Ebene mit den griechischen Buchstaben verstehe ich als
einfache Möglichkeit der Eingabe von wissenschaftlich verwendeten Zeichen,
allenfalls einzelner Wörter, aber nicht, um damit lange Texte in griechischer
Sprache zu tippen (wofür eine für die Sprache optimierte Tastenbelegung
erforderlich wäre). Also müssen die griechischen Zeichen der Belegung der ersten
Ebene folgen.

 Aufgabe: Freie Texte zusammenstellen, zusammen so 100-300 MiB repräsentativen
 Text, gerne auch mehr.

Nachdem ich den Leipziger Korpus für unsere Belange überarbeitet habe, scheue
ich den Aufwand, weitere Korpora für weitere Sprachen anzugehen. Wenn es um
einen gemischtsprachigen Korpus ginge, würde ich mich sogar weigern, da ich das
für den falschen Weg halte - naja, 4 % Englisch und 96 % Deutsch ginge so gerade
noch.


Es bereitet viel Freude, in alle möglichen Richtungen zu probieren. Dabei kann
riskiert man, vom Weg abzukommen.

Insgesamt möchte ich anregen, den Hauptaugenmerk darauf zu richten, Neo für die
deutsche Sprache zu optimieren.

Wenn zunächst dafür mehrere gleichgute Tastenbelegungen für die deutsche Sprache
gefunden sind, dann können diejenigen in die engere Wahl gezogen werden, deren
Überprüfung für einen englischsprachigen Korpus bessere Ergebnisse liefern.

Auf die Weise bleibt die Optimierung für die deutsche Sprache an erster Stelle
und englischsprachige Texte werden sich dennoch gut tippen lassen.

Mit netten Grüßen
Karl






Re: [Neo] aktueller Entwicklungsstand

2011-03-14 Diskussionsfäden Arne Babenhauserheide
On Monday 14 March 2011 13:37:38 Karl Köckemann wrote:
 Nachdem ich den Leipziger Korpus für unsere Belange überarbeitet habe,
 scheue ich den Aufwand, weitere Korpora für weitere Sprachen anzugehen.
 Wenn es um einen gemischtsprachigen Korpus ginge, würde ich mich sogar
 weigern, da ich das für den falschen Weg halte - naja, 4 % Englisch und 96
 % Deutsch ginge so gerade noch.

Mein einziges Problem mit dem Leipziger Korpus ist das hier:

-- -- -- -- -- --
# Conditions of use

The Leipzig Corpora Collection contain text from publicly accessible sources.
All data have been processed automatically so that it is not possible to
reconstruct the original source texts.

The corpora are protected by copyright.  They are made available on the
condition that they may be used for scientific purposes only and not passed on
to third parties. Any use of the data must be duly documented and referenced.
Commercial use of the data requires the prior written consent of the Leipzig
University department for Natural Language Processing.
-- -- -- -- -- --
→ http://corpora.uni-leipzig.de/download.html

Dürfen wir ihn überhaupt nutzen?

(Ja, ich weiß, dass Lizenzen nervig sein können. Ich kann aber nichts dafür,
dass die Uni-Leipzig so besch… Lizenzregeln aufstellt - wir dürfen den Korpus
nichtmal weitergeben! - falls du von denen das offizielle OK haben solltest,
wäre das was ganz anderes)

Liebe Grüße,
Arne

signature.asc
Description: This is a digitally signed message part.


Re: [Neo] aktueller Entwicklungsstand

2011-03-14 Diskussionsfäden Marco Antoni

Moin!

Dem möchte ich mich uneingeschränkt anschließen. Zitat aus dem Wiki: „Neo  
– Die freie, für die deutsche Sprache ergonomisch optimierte  
Tastaturbelegung“. Wie wir wissen, sind die europäischen Sprachen nicht  
sooo verschieden, dass eine auf Deutsch optimierte Tastatur alle anderen  
Sprachen untippbar sein lässt, eher im Gegenteil wird sie (vor allem im  
Vergleich zu QWERTZ) auch dort teiloptimiert sein – das heißt, nicht  
optimal, aber eben trotzdem gut. Unser Fokus sollte auf Deutsch liegen  
(siehe Zitat), danach auf Erlernbarkeit (Ergonomie ohne User ist sinnlos)  
und erst dann auf anderen Sprachen.


Auch bei der Frage, welche Sprache dann einbezogen werden soll, kann ich  
mir keine Einigkeit vorstellen. Klar ist Englisch die Weltsprache. Aber  
Französisch-, Spanisch- und Italienischsprecher gibt es auch viele und wie  
lange Englisch diese Position behalten wird, ist auch unklar. Der kleinste  
gemeinsame Nenner ist bei Neo die deutsche Sprache und auf diesen sollten  
wir uns konzentrieren.


Zum Thema, wo man einen Korpus herbekommt:  
http://www.gutenberg.org/wiki/Gutenberg:No_Cost_or_Freedom%3F und  
http://www.gutenberg.org/wiki/German_Language_Books_(Bookshelf)

Lange Wikipediaartikel dürften z.B. auch geeignet sein.

Grüße, Marco8

Am 14.03.2011, 12:09 Uhr, schrieb Matthias Wächter  
matth...@waechter.wiz.at:



On 13.03.2011 17:59, Arne Babenhauserheide wrote:
Aktuell würde ich die Parameter nun als gut einstufen. Was jetzt v.a.  
noch

fehlt ist ein passender Korpus: Wie soll die Verteilung auf Deutsch und
Englisch sein, und welche Texte nutzen wir? Sollen noch andere Sprachen  
rein
(Stichwort: Europäisches Layout)? Da brauche ich definitiv Hilfe - kann  
(und
will) ich nicht alleine entscheiden und kann es auch alleine nicht gut  
genug
stemmen, denke ich. Aufgabe: Freie Texte zusammenstellen, zusammen so  
100-300

MiB repräsentativen Text, gerne auch mehr. Das geht vielleicht Michael
Gattinger an.


Ich würde, wie schon mehrfach vorgeschlagen, _keinen_  
Mehrsprachen-Mischkorpus erstellen. Stattdessen sollte der Algorithmus  
auf einen homogenen Korpus (Deutsch) losgelassen werden, und unter den  
besten Layouts wählt man dann dasjenige aus, das weitere Kriterien  
erfüllt, beispielsweise gute Werte mit anderen Korpora (Englisch, …)  
oder einfache Erlernbarkeit.


– Mœsi




Re: [Neo] aktueller Entwicklungsstand

2011-03-14 Diskussionsfäden Karl Köckemann
Arne Babenhauserheide writes:

 On Monday 14 March 2011 13:37:38 Karl Köckemann wrote:
  Nachdem ich den Leipziger Korpus für unsere Belange überarbeitet habe,
  scheue ich den Aufwand, weitere Korpora für weitere Sprachen anzugehen.
  Wenn es um einen gemischtsprachigen Korpus ginge, würde ich mich sogar
  weigern, da ich das für den falschen Weg halte - naja, 4 % Englisch und 96
  % Deutsch ginge so gerade noch.
 
 Mein einziges Problem mit dem Leipziger Korpus ist das hier: 
 
 -- -- -- -- -- --
 # Conditions of use
 
 The Leipzig Corpora Collection contain text from publicly accessible sources. 
 All data have been processed automatically so that it is not possible to 
 reconstruct the original source texts. 
 
 The corpora are protected by copyright.  They are made available on the 
 condition that they may be used for scientific purposes only and not passed 
 on 
 to third parties. Any use of the data must be duly documented and referenced. 
 Commercial use of the data requires the prior written consent of the Leipzig 
 University department for Natural Language Processing.
 -- -- -- -- -- --
 → http://corpora.uni-leipzig.de/download.html
 
 Dürfen wir ihn überhaupt nutzen? 
 
 (Ja, ich weiß, dass Lizenzen nervig sein können. Ich kann aber nichts dafür, 
 dass die Uni-Leipzig so besch… Lizenzregeln aufstellt - wir dürfen den Korpus 
 nichtmal weitergeben! - falls du von denen das offizielle OK haben solltest, 
 wäre das was ganz anderes)

Vielen Dank für den wichtigen Hinweis!
Soeben habe ich in einer E-Mail and Uni Leipzig erfragt, ob sie Bedenken haben
oder eine Nutzungserlaubnis ausstellen würden. Warten wir die Antwort ab.

Im Zweifelsfall müssten wir tatsächlich selber einen hinreichend großen Korpus
erstellen. Da ich ein Autorenforum technisch unterstütze, kann ich mir
vorstellen, dass sie bereit wären, einen Teil ihrer Werke für einen Korpus
bereitzustellen. Immerhin wären es unterschiedliche Schreibstile in korrekt
geschriebener Neuer Rechtschreibung, die zwar nur einen Teil zu einem Korpus
beitragen könnten, der aber wenig Überarbeitung erfordert.

Auch könnten wir Verlage um die Bereitstellung von Texten bitten - auch
wissenschaftliche. Für das von uns angestrebte Ziel könnte es auf die Weise
gelingen, einen auf aktuelle Texte basierenden Korpus zu erschaffen.

Klar können auch ein paar Werke hinein, deren Autoren über 70 Jahre verstorben
sind, aber die Texte bedürfen mehr Aufbereitungsarbeit, um in einen Korpus
einfließen zu können.

Mit netten Grüßen
Karl






Re: [Neo] aktueller Entwicklungsstand

2011-03-14 Diskussionsfäden Karl Köckemann
Marco Antoni writes:

 Zum Thema, wo man einen Korpus herbekommt:  
 http://www.gutenberg.org/wiki/Gutenberg:No_Cost_or_Freedom%3F und  
 http://www.gutenberg.org/wiki/German_Language_Books_(Bookshelf)
 Lange Wikipediaartikel dürften z.B. auch geeignet sein.

Ohne jetzt erneut einen genaueren Blick auf die Gutenberg-Projekt-Seiten
geworfen zu haben, gehe ich davon aus, dass deren Dateien sich nicht verändert
haben. Sie erfordern leider sehr hohen Arbeitsaufwand, bis sie für die Aufnahme
in einen für uns geeigneten Korpus hergerichtet sind. Einerseits ist der
Sprachstil hoffnungslos veraltet; eine Umstellung auf Neue Rechtschreibung muss
vollzogen werden; das Strippen von sich wiederholenden
Gutenberg-Projekt-spezifischen ist unumgänglich.

Wikipedia wäre eine feine Grundlage, die leider noch (viel) mehr Aufwand beim
Strippen der Quelltexte erfordert.

Wenn es nicht anders geht, dann werden die beiden Möglichkeiten angegangen
werden müssen.

Mit netten Grüßen
Karl




Re: [Neo] aktueller Entwicklungsstand

2011-03-13 Diskussionsfäden Arne Babenhauserheide
Hi Pascal,

Aktuell tippe ich mit HAEIK/Salma 300 Zeichen pro Minute. Grundlegend tippt is
sich sehr schön, allerdings habe ich ein paar Probleme bemerkt - und sie in
den Optimierer einfließen lassen.

Wichtig: HAEIK ist nur für Testzwecke. Grund: Rein Deutscher Korpus und
veraltete Parameter. TNRS ist hat die richtigen Parameter, aber auch den rein
deutschen Korpus.

Erstmal die Probleme von HAEIK:

1) Die Belegung ist etwas unten-lastig. Dadurch ist die Grundstellung der
Zeigefinger zwischen der Grundstellung und der unteren Reihe und die Zahlen
sind weiter weg. → d

2) Wenn ich zwei nebeneinanderliegende Finger spreizen muss, ist das sehr
unschön (Neo 2: ao, haeik: nd). → h

3) wenn Tasten einmal einwärts und ein andermal auswärts bedient werden, lädt
das zu Fehlern ein → i (auch Zeigefinger-zu-X bestrafen).

4) Wenn ich die Hand aus dem Gleichgewicht ziehe und dann eine weit entfernte
Taste drücken muss, ist das sehr unschön → a

Was noch anzudenken wäre: Das allgemeine Gleichgewicht zwischen oberer und
unterer Zeile prüfen und Ungleichgewichte bestrafen. Aber da bin ich nicht
sicher.


Dann die Lösungsansätze; dabei sind auch ein paar, die mir durch
Optimierungsergebnisse mit den geänderten Parametern aufgefallen sind:

a) increase the cost of no handswitching after disbalancing if the second key
is on a different row (f830bd9888cc)

b) halved the cost of general no handswitching after unbalancing, since the
evil special cases are much more expensive, now (1 row: x2, 2 rows: x5).
(033c4f7f5d80)

c) nonlinear weigting of very frequent bigrams. (78b61cc22f25)

d) ~20% increase of the cost of the good lower keys: they disturb the flow
in 250cpm typing. (d7b2b662011e)

f) rows²: bad, bad warped standard-keyboard: lower line shifted ¼ key to the
right. (81a7a909cd93)

g) moving upwards to short fingers is bad: add ¼ (77b38320c836)

h) neighboring after unbalancing is now just as bad as unbalancing after
neighboring. (247c904ea556)

i) movement patterns: index to middle is worse than index to ring.
(1fe453c7c083)

j) increased the cost for finger disbalance by ⅓:  The index finger got too much
load (e on index). (dfb71a331f60)



Aktuell würde ich die Parameter nun als gut einstufen. Was jetzt v.a. noch
fehlt ist ein passender Korpus: Wie soll die Verteilung auf Deutsch und
Englisch sein, und welche Texte nutzen wir? Sollen noch andere Sprachen rein
(Stichwort: Europäisches Layout)? Da brauche ich definitiv Hilfe - kann (und
will) ich nicht alleine entscheiden und kann es auch alleine nicht gut genug
stemmen, denke ich. Aufgabe: Freie Texte zusammenstellen, zusammen so 100-300
MiB repräsentativen Text, gerne auch mehr. Das geht vielleicht Michael
Gattinger an.

Sobald wir den haben: 10.000 Layouts generieren und dann aus den 100 besten
das fertige Layout wählen; von Hand und nach ästhetischen, Merk- und
Lerntechnischen Kriterien - idealerweise mit den Bigrammbildern als Stütze. Im
Zweifelsfall auch ein paar Tasten tauschen und bei jedem Tauschen prüfen, wie
sich die Werte verändert haben (um keine gravierenden Probleme zu schaffen).

Liebe Grüße,
Arne


signature.asc
Description: This is a digitally signed message part.


Re: [Neo] aktueller Entwicklungsstand

2011-03-13 Diskussionsfäden Arne Babenhauserheide
On Sunday 13 March 2011 17:59:54 Arne Babenhauserheide wrote:
 1) Die Belegung ist etwas unten-lastig. Dadurch ist die Grundstellung der
 Zeigefinger zwischen der Grundstellung und der unteren Reihe und die Zahlen
 sind weiter weg. → d

 2) Wenn ich zwei nebeneinanderliegende Finger spreizen muss, ist das sehr
 unschön (Neo 2: ao, haeik: nd). → h

 3) wenn Tasten einmal einwärts und ein andermal auswärts bedient werden,
 lädt das zu Fehlern ein → i (auch Zeigefinger-zu-X bestrafen).

 4) Wenn ich die Hand aus dem Gleichgewicht ziehe und dann eine weit
 entfernte Taste drücken muss, ist das sehr unschön → a

Wichtiges vergessen: Das ü oben stört auch nach über einem Monat noch mehr als
ich dachte. +1 für leichte Lern- und Merkbarkeit. Also lieber nicht das Top-
Layout auswählen, sondern dasjenige von den Top10 oder Top100, das am
leichtesten zu lernen ist.

Dann noch anpassen, um es noch logischer und ästhetisch ansprechender zu
machen (und dabei jeden Schritt prüfen, dass er die Wertung nicht zu sehr
verschlechtert, ansonsten einen anderen Schritt testen).

TNRS ist damit nicht als Neo 3 geeignet.

Fazit: Noch nicht für Endbenutzer geeignet, aber inzwischen immerhin in
Alphaphase. Für die Beta fehlt nur noch ein repräsentativer Korpus.

Liebe Grüße,
Arne

signature.asc
Description: This is a digitally signed message part.


Re: [Neo] aktueller Entwicklungsstand

2011-03-13 Diskussionsfäden Pascal Hauck
Am Sonntag, 13. März 2011, 17:59:54 schrieben Sie:
 Wie soll die Verteilung auf Deutsch und 
 Englisch sein, und welche Texte nutzen wir? Sollen noch andere Sprachen
 rein  (Stichwort: Europäisches Layout)?

Meines Wissens haben bereits mehrere derjenigen, die sich mit dem Relevanz des 
Korpus für Neo befasst haben, festgestellt, dass die Wahl der Texte die 
Belegung beeinflusst.
Dies bedeutet zugleich, dass eine für die deutsche Sprache optimierte Belegung 
nicht gleichzeitig optimal für eine andere Sprache sein kann. Ein europäisches 
Layout wäre somit ein Kompromiss, aber für keine Sprache eine gute – oder gar 
optimale – Belegung. Damit würde Neo seinem eigenen Anspruch nicht gerecht.

Die Englische Sprache soll – in angemessen geringem (!) Umfang – 
Berücksichtigung finden, der deutliche Schwerpunkt muss aber auf der Deutschen 
Sprache liegen. Tatsächlich schreibt die Mehrheit doch zu weit mehr als 90% 
aller Texte in der Muttersprache, wobei damit zu rechnen ist, dass bereits 
durch den deutschen Korpus häufige Anglizismen berücksichtigt werden.

Für andere wesentliche Sprachen reicht es, einen kurzen Blick auf die 
häufigsten 20 Wörter zu werfen. Die meisten wie z.B. „le“ oder „mundo“ werden 
ohnehin gut funktionieren¹. Für andere wie „avoir“ oder “soy“ kann eine 
Variation versucht werden, sofern daraus nicht andere Einbußen erwachsen.


Jedoch sollten zwei Punkte bedacht werden:
ⅰ) Jede Verbesserung für eine Sprache muss auf negative Folgen für eine andere 
(vor allem für das Deutsche!) überprüft werden – alleine deswegen sollten 
diese Versuche nicht übertrieben werden
ⅱ) Obwohl „eno“ auf Neo2 wunderbar zu tippen ist, ist „señor“ deutlicher 
schwieriger. Somit müssten auch die diakritischen Zeichen und deren Erzeugung 
berücksichtigt werden – und auch hier wird vermutlich die Verbesserung für 
eine Sprache eine Verschlechterung für eine andere bedeuten.


Alleine diese flüchtigen Gedanken machen deutlich, welch hohen Arbeitsaufwand 
dies bedeuten kann und wie gering der Nutzen vermutlich wäre.


Gruß,
Pascal

¹ Diese Wörter sind bereits mit Neo2 angenehm zu tippen



Re: [Neo] aktueller Entwicklungsstand

2011-03-13 Diskussionsfäden Florian Janßen
Hallo,

ich steh quasi vor dem gleichen Problem wie Pascal, ich bin nach Neo 2.0
für ne Zeit ausgestiegen, habe jetzt wieder Luft, weiß aber nicht genau
wie wo was gerade läuft.

Arne Babenhauserheide schrieb am 13.03.2011 um 17:59 Uhr:

 TNRS ist hat die richtigen Parameter, aber auch den rein
 deutschen Korpus.

Wo finde ich die Belegung? Wie sehen die (vorläufigen) höheren Ebenen
aus? 3 und 4 bleiben, 5 und 6 wandern mit?

 Da brauche ich definitiv Hilfe - kann (und 
 will) ich nicht alleine entscheiden und kann es auch alleine nicht gut genug 
 stemmen, denke ich. Aufgabe: Freie Texte zusammenstellen, zusammen so 100-300 
 MiB repräsentativen Text, gerne auch mehr.

Wieviel Aufwand ist es eine Belegung gegen einen neuen Korpus zu testen?

Gruß Florian



signature.asc
Description: OpenPGP digital signature