Re: [Neo] aktueller Entwicklungsstand
Hi Michael, On Monday 18 April 2011 02:10:16 Michael Gattinger wrote: > Am 14.03.2011 11:48, schrieb Arne Babenhauserheide: > Welche Syntax erfordern diese Typisierten Dateien? > Oder anders: Welche Infos stehen da drin? > Beispiel? > > en 17,5% > er 12,3% > ar 5,7% Da stehen einfach Häufigkeiten drin: 12345 en 4538 de 12 ∃ℝ Die werden dann auch direkt als Zahlen und Strings ausgewertet: num, bi = zeile.lstrip().split() Also Liebe Grüße, Arne signature.asc Description: This is a digitally signed message part.
Re: [Neo] aktueller Entwicklungsstand
Am 14.03.2011 18:24, schrieb Marco Antoni: Dem möchte ich mich uneingeschränkt anschließen. [...][...][...] Auch bei der Frage, welche Sprache dann einbezogen werden soll, kann ich mir keine Einigkeit vorstellen. Klar ist Englisch die Weltsprache. Aber Französisch-, Spanisch- und Italienischsprecher gibt es auch viele und wie lange Englisch diese Position behalten wird, ist auch unklar. Der kleinste gemeinsame Nenner ist bei Neo die deutsche Sprache und auf diesen sollten wir uns konzentrieren. Ich würde, wie schon mehrfach vorgeschlagen, _keinen_ Mehrsprachen-Mischkorpus erstellen. Stattdessen sollte der Algorithmus auf einen homogenen Korpus (Deutsch) losgelassen werden, und unter den besten Layouts wählt man dann dasjenige aus, das weitere Kriterien erfüllt, beispielsweise gute Werte mit anderen Korpora (Englisch, …) oder einfache Erlernbarkeit. – Mœsi Die Frage ist hier nicht ob Englisch die Weltsprache ist oder eine andere, sondern: Wieviele Deutsche schreiben Englisch / Italienisch / Französisch? ... Statt "für die deutsche Sprache Tastatatur" könnte man auch sagen "für die deutschen Tastatur". Da Englisch in ziemlich vielen Schulen als erste Fremdsprache gelehrt wird und andere Sprachen eher weniger als erste Fremdsprache, ist der Anteil der Englischschreibenden denke ich deutlich höher als Französischschreibende. Mit freundlichen Grüßen Michael Gattinger
Re: [Neo] aktueller Entwicklungsstand
Am 14.03.2011 11:48, schrieb Arne Babenhauserheide: Da brauche ich definitiv Hilfe - kann (und will) ich nicht alleine entscheiden und kann es auch alleine nicht gut genug stemmen, denke ich. Aufgabe: Freie Texte zusammenstellen, zusammen so 100-300 MiB repräsentativen Text, gerne auch mehr. Wieviel Aufwand ist es eine Belegung gegen einen neuen Korpus zu testen? Mit vorgenerierten nGrammen (1gramme.txt, 2gramme.txt, 3gramme.txt) braucht es nur ein paar Sekunden. Welche Syntax erfordern diese Typisierten Dateien? Oder anders: Welche Infos stehen da drin? Beispiel? en 17,5% er 12,3% ar 5,7% ??? (!Fantasiewerte)
Re: [Neo] aktueller Entwicklungsstand
Am 13.03.2011 17:59, schrieb Arne Babenhauserheide: Aktuell würde ich die Parameter nun als gut einstufen. Was jetzt v.a. noch fehlt ist ein passender Korpus: Wie soll die Verteilung auf Deutsch und Englisch sein, und welche Texte nutzen wir? Sollen noch andere Sprachen rein (Stichwort: Europäisches Layout)? Da brauche ich definitiv Hilfe - kann (und will) ich nicht alleine entscheiden und kann es auch alleine nicht gut genug stemmen, denke ich. Aufgabe: Freie Texte zusammenstellen, zusammen so 100-300 MiB repräsentativen Text, gerne auch mehr. Das geht vielleicht Michael Gattinger an. Dazu lese man Re: [Neo] Wikipedia-Korpus selbstgemacht vom 17.04.2011 23:48
Re: [Neo] aktueller Entwicklungsstand
Hallo, > Ein praktisches Beispiel für die Schwächen (die inzwischen vom Optimierer > vermieden werden): „azyklischer Pfand“ („azyk“ ist sozusagen ein worst-case > Wort). Apropos ‚worst-case Wort‘, bei Neo2 und vermutlich auch in deinem Layout ist „Karlsruhe“ auffällig schwieriger zu tippen als in Qwertz, was natürlich auch an dem Wort (und dessen dicken Konsonantencluster) selbst liegt. Ist halt etwas nervig für Leute, die dort wohnen. Apropos Europäisches Layout, auch wenn es hier ab und zu Kritik an der Idee gibt, würde ich diese Idee gerne auch mal ausprobieren. Wenn es noch andere Interessierte gibt, könnte man durchaus mal eine Korpus-Recherche und einen Optimiererlauf wagen, oder entsprechende Sprachgewichte diskutieren. Mich würde daran v.a. interessieren, wie stark/schwach so ein Layout für die einzelnen Sprachen ausfallen würde. Es wird ja immer diskutiert, dass dieses Layout für die einzelnen Sprachen nicht optimal sein kann, aber eigentlich weiß man gar nichts Quantitatives über diesen Effekt. Wenn sich dieser Effekt auf Deutsch/Englisch etc. wegen der Ähnlichkeit einiger europäischer Sprachen nicht so stark auswirken würde, wäre ich durchaus bereit gegen kleinere Geschwindigkeitseinbußen für die deutsche Sprache ein europäisches Layout vorzuziehen. Viele Grüße, Aleχ
Re: [Neo] aktueller Entwicklungsstand
Am 18.03.2011 09:24, schrieb Florian Janßen: > > Nach dem man die richigen Knoten aus dem XML geladen hat (das kann sogar > ich ;) ) können Script-Junkies bestimmt ein paar schicke Regexen drauf > loslassen (kann ich nicht). Aber das ist wahrscheinlich genau das was > Karl mit „mehr Aufwand beim Strippen der Quelltexte“ meinte. > > Gruß Florian > > Sorry, bin zur Zeit privat ziemlich offline. Was ich meinte war, dass da die Texte *der Artikel* drin sind und man das ganze redundante Wikipedia-Bedien-Gedöns und Kommentar/Historie nicht wegschnipseln braucht. Ausserdem kann man das bequem zu Hause und offline machen, ohne mit Mechanize oder anderem Geschütz auf die Webseite selbst zu müssen. Andereseits: mit einem generischen Webscraper könnte man nicht nur WP, sondern auch andere Seiten abgrasen - je breiter und aktueller die Quellen, desto mehr Aussagekraft hat der Korpus. (das spiegel.de Archiv liefert sicher andere (ältere) Korpusse) Servus, Peter
Re: [Neo] aktueller Entwicklungsstand
Schubi schrieb am 18.03.2011 um 07:57 Uhr: > Am 17.03.2011 23:54, schrieb Florian Janßen: >> Am 16.03.2011 15:32, schrieb Peter Fischer: >>> Am 14.03.2011 18:41, schrieb Karl Köckemann: Wikipedia wäre eine feine Grundlage, die leider noch (viel) mehr Aufwand beim Strippen der Quelltexte erfordert. >> >>> [Link zu Wikipedia-XML-Dump]- >> >> Hast du da mal reingeschaut? Das kann man noch nicht so verwenden, da es >> den Text im Wiki-Syntax enthält. > > Ist aber auch kein Problem, das raus zu pasen, oder? Nach dem man die richigen Knoten aus dem XML geladen hat (das kann sogar ich ;) ) können Script-Junkies bestimmt ein paar schicke Regexen drauf loslassen (kann ich nicht). Aber das ist wahrscheinlich genau das was Karl mit „mehr Aufwand beim Strippen der Quelltexte“ meinte. Gruß Florian signature.asc Description: OpenPGP digital signature
Re: [Neo] aktueller Entwicklungsstand
Am 17.03.2011 23:54, schrieb Florian Janßen: > Am 16.03.2011 15:32, schrieb Peter Fischer: >> Am 14.03.2011 18:41, schrieb Karl Köckemann: >>> >>> Wikipedia wäre eine feine Grundlage, die leider noch (viel) mehr >>> Aufwand beim Strippen der Quelltexte erfordert. > >> [Link zu Wikipedia-XML-Dump]- > > Hast du da mal reingeschaut? Das kann man noch nicht so verwenden, da es > den Text im Wiki-Syntax enthält. > > Gruß Florian > Ist aber auch kein Problem, das raus zu pasen, oder? Gruß, Schubi
Re: [Neo] aktueller Entwicklungsstand
Am 16.03.2011 15:32, schrieb Peter Fischer: > Am 14.03.2011 18:41, schrieb Karl Köckemann: >> >> Wikipedia wäre eine feine Grundlage, die leider noch (viel) mehr >> Aufwand beim Strippen der Quelltexte erfordert. > [Link zu Wikipedia-XML-Dump]- Hast du da mal reingeschaut? Das kann man noch nicht so verwenden, da es den Text im Wiki-Syntax enthält. Gruß Florian
Re: [Neo] aktueller Entwicklungsstand
Am 14.03.2011 18:41, schrieb Karl Köckemann: Wikipedia wäre eine feine Grundlage, die leider noch (viel) mehr Aufwand beim Strippen der Quelltexte erfordert. http://de.wikipedia.org/wiki/Wikipedia:Download#Herunterladen_aller_Seiten_als_XML-Dump
Re: [Neo] aktueller Entwicklungsstand
On Monday 14 March 2011 17:32:06 Karl Köckemann wrote: > Vielen Dank für den wichtigen Hinweis! > Soeben habe ich in einer E-Mail and Uni Leipzig erfragt, ob sie Bedenken > haben oder eine Nutzungserlaubnis ausstellen würden. Warten wir die Antwort > ab. Ich hoffe, sie sagen zu! Die Info „Optimiert mit dem Referenzkorpus der Uni Leipzig“ (Korpus beigelegt) kann nämlich (denke ich) helfen, Neo (3) zu verbreiten. > Im Zweifelsfall müssten wir tatsächlich selber einen hinreichend großen > Korpus erstellen. Da ich ein Autorenforum technisch unterstütze, kann ich > mir vorstellen, dass sie bereit wären, einen Teil ihrer Werke für einen > Korpus bereitzustellen. Das wäre klasse! Ich würde auch Werke von mir beisteuern, und Wikipedia, Wikinews und öffentliche Mailinglisten sind ja auch da. > Auch könnten wir Verlage um die Bereitstellung von Texten bitten - auch > wissenschaftliche. Für das von uns angestrebte Ziel könnte es auf die Weise > gelingen, einen auf aktuelle Texte basierenden Korpus zu erschaffen. Dazu gibt es noch Google Books (deren Bigramme sind einfach 2 Wörter hintereinander, reichen also aus, um Statistiken für einen massiven Korpus zu erzeugen). > Klar können auch ein paar Werke hinein, deren Autoren über 70 Jahre > verstorben sind, aber die Texte bedürfen mehr Aufbereitungsarbeit, um in > einen Korpus einfließen zu können. Leider… Liebe Grüße, Arne signature.asc Description: This is a digitally signed message part.
Re: [Neo] aktueller Entwicklungsstand
On Tuesday 15 March 2011 10:43:30 Florian Janßen wrote: > > - wir dürfen den Korpus nichtmal weitergeben! > > Wozu willst du den Korpus weitergeben? Zum Beispiel, damit wir gemeinsam optimieren können, ohne dass jeder Einzelne den Korpus neu von der Uni laden muss. Und damit wir anderen die Möglichkeit geben können, das Optimierungsergebnis zu verifizieren. „Wir haben da mit dem Korpus der Uni Leipzig gearbeitet - um das zu prüfen, müsst ihr ihn selbst runterladen - natürlich funktioniert das nur, wenn sie ihn nicht geändert haben“ klingt nämlich irgendwie nicht sehr professionell… Liebe Grüße, Arne signature.asc Description: This is a digitally signed message part.
Re: [Neo] aktueller Entwicklungsstand
A>rne Babenhauserheide schrieb am 14.03.2011 um 15:09 Uhr: > Dürfen wir ihn überhaupt nutzen? Ich bin kein Jurist ;) > (Ja, ich weiß, dass Lizenzen nervig sein können. Ich kann aber nichts dafür, > dass die Uni-Leipzig so besch… Lizenzregeln aufstellt Wahrscheinlich hat die Uni auch nicht so viel Wahl, weil sie die Bedingungen der Quellen akzeptieren (müssen). > - wir dürfen den Korpus nichtmal weitergeben! Wozu willst du den Korpus weitergeben? Was ist mit dem DWDS-Kernkorpus (100⋅10⁶ Tokens)? Auf der Suche nach der Lizenz des Kernkorpus konnte ich nur: „2. Rechtevereinbarungen Bereits frühzeitig hat das Projekt Nutzungsvereinbarungen mit Verlagen wie Aufbau, Diogenes Verlag, Eichborn, S. Fischer Verlagsgruppe, Hoffmann & Campe, Kiepenheuer & Witsch, K.G. Saur Verlag, Spiegel, Suhrkamp, Ullstein, ZEIT sowie öffentlichen und privaten Textgebern (z.B. Deutsches Rundfunkarchiv, Digitale Bibliothek) getroffen. Somit kann das Projekt z.B. Werke von Thomas und Heinrich Mann, Martin Walser, Heinrich Böll, Jürgen Habermas oder Victor Klemperer für die wortbezogene Internetrecherche zur Verfügung stellen.“ Über das dlexDB lassen sich direkt Zeichenhäufigkeiten, Bi- und Trigramme abrufen. Gruß Florian signature.asc Description: OpenPGP digital signature
Re: [Neo] aktueller Entwicklungsstand
Marco Antoni writes: > Zum Thema, wo man einen Korpus herbekommt: > http://www.gutenberg.org/wiki/Gutenberg:No_Cost_or_Freedom%3F und > http://www.gutenberg.org/wiki/German_Language_Books_(Bookshelf) > Lange Wikipediaartikel dürften z.B. auch geeignet sein. Ohne jetzt erneut einen genaueren Blick auf die Gutenberg-Projekt-Seiten geworfen zu haben, gehe ich davon aus, dass deren Dateien sich nicht verändert haben. Sie erfordern leider sehr hohen Arbeitsaufwand, bis sie für die Aufnahme in einen für uns geeigneten Korpus hergerichtet sind. Einerseits ist der Sprachstil hoffnungslos veraltet; eine Umstellung auf Neue Rechtschreibung muss vollzogen werden; das Strippen von sich wiederholenden Gutenberg-Projekt-spezifischen ist unumgänglich. Wikipedia wäre eine feine Grundlage, die leider noch (viel) mehr Aufwand beim Strippen der Quelltexte erfordert. Wenn es nicht anders geht, dann werden die beiden Möglichkeiten angegangen werden müssen. Mit netten Grüßen Karl
Re: [Neo] aktueller Entwicklungsstand
Arne Babenhauserheide writes: > On Monday 14 March 2011 13:37:38 Karl Köckemann wrote: > > Nachdem ich den Leipziger Korpus für unsere Belange überarbeitet habe, > > scheue ich den Aufwand, weitere Korpora für weitere Sprachen anzugehen. > > Wenn es um einen gemischtsprachigen Korpus ginge, würde ich mich sogar > > weigern, da ich das für den falschen Weg halte - naja, 4 % Englisch und 96 > > % Deutsch ginge so gerade noch. > > Mein einziges Problem mit dem Leipziger Korpus ist das hier: > > -- -- -- -- -- -- > # Conditions of use > > The Leipzig Corpora Collection contain text from publicly accessible sources. > All data have been processed automatically so that it is not possible to > reconstruct the original source texts. > > The corpora are protected by copyright. They are made available on the > condition that they may be used for scientific purposes only and not passed > on > to third parties. Any use of the data must be duly documented and referenced. > Commercial use of the data requires the prior written consent of the Leipzig > University department for Natural Language Processing. > -- -- -- -- -- -- > → http://corpora.uni-leipzig.de/download.html > > Dürfen wir ihn überhaupt nutzen? > > (Ja, ich weiß, dass Lizenzen nervig sein können. Ich kann aber nichts dafür, > dass die Uni-Leipzig so besch… Lizenzregeln aufstellt - wir dürfen den Korpus > nichtmal weitergeben! - falls du von denen das offizielle OK haben solltest, > wäre das was ganz anderes) Vielen Dank für den wichtigen Hinweis! Soeben habe ich in einer E-Mail and Uni Leipzig erfragt, ob sie Bedenken haben oder eine Nutzungserlaubnis ausstellen würden. Warten wir die Antwort ab. Im Zweifelsfall müssten wir tatsächlich selber einen hinreichend großen Korpus erstellen. Da ich ein Autorenforum technisch unterstütze, kann ich mir vorstellen, dass sie bereit wären, einen Teil ihrer Werke für einen Korpus bereitzustellen. Immerhin wären es unterschiedliche Schreibstile in korrekt geschriebener Neuer Rechtschreibung, die zwar nur einen Teil zu einem Korpus beitragen könnten, der aber wenig Überarbeitung erfordert. Auch könnten wir Verlage um die Bereitstellung von Texten bitten - auch wissenschaftliche. Für das von uns angestrebte Ziel könnte es auf die Weise gelingen, einen auf aktuelle Texte basierenden Korpus zu erschaffen. Klar können auch ein paar Werke hinein, deren Autoren über 70 Jahre verstorben sind, aber die Texte bedürfen mehr Aufbereitungsarbeit, um in einen Korpus einfließen zu können. Mit netten Grüßen Karl
Re: [Neo] aktueller Entwicklungsstand
Moin! Dem möchte ich mich uneingeschränkt anschließen. Zitat aus dem Wiki: „Neo – Die freie, für die deutsche Sprache ergonomisch optimierte Tastaturbelegung“. Wie wir wissen, sind die europäischen Sprachen nicht sooo verschieden, dass eine auf Deutsch optimierte Tastatur alle anderen Sprachen untippbar sein lässt, eher im Gegenteil wird sie (vor allem im Vergleich zu QWERTZ) auch dort teiloptimiert sein – das heißt, nicht optimal, aber eben trotzdem gut. Unser Fokus sollte auf Deutsch liegen (siehe Zitat), danach auf Erlernbarkeit (Ergonomie ohne User ist sinnlos) und erst dann auf anderen Sprachen. Auch bei der Frage, welche Sprache dann einbezogen werden soll, kann ich mir keine Einigkeit vorstellen. Klar ist Englisch die Weltsprache. Aber Französisch-, Spanisch- und Italienischsprecher gibt es auch viele und wie lange Englisch diese Position behalten wird, ist auch unklar. Der kleinste gemeinsame Nenner ist bei Neo die deutsche Sprache und auf diesen sollten wir uns konzentrieren. Zum Thema, wo man einen Korpus herbekommt: http://www.gutenberg.org/wiki/Gutenberg:No_Cost_or_Freedom%3F und http://www.gutenberg.org/wiki/German_Language_Books_(Bookshelf) Lange Wikipediaartikel dürften z.B. auch geeignet sein. Grüße, Marco8 Am 14.03.2011, 12:09 Uhr, schrieb Matthias Wächter : On 13.03.2011 17:59, Arne Babenhauserheide wrote: Aktuell würde ich die Parameter nun als gut einstufen. Was jetzt v.a. noch fehlt ist ein passender Korpus: Wie soll die Verteilung auf Deutsch und Englisch sein, und welche Texte nutzen wir? Sollen noch andere Sprachen rein (Stichwort: Europäisches Layout)? Da brauche ich definitiv Hilfe - kann (und will) ich nicht alleine entscheiden und kann es auch alleine nicht gut genug stemmen, denke ich. Aufgabe: Freie Texte zusammenstellen, zusammen so 100-300 MiB repräsentativen Text, gerne auch mehr. Das geht vielleicht Michael Gattinger an. Ich würde, wie schon mehrfach vorgeschlagen, _keinen_ Mehrsprachen-Mischkorpus erstellen. Stattdessen sollte der Algorithmus auf einen homogenen Korpus (Deutsch) losgelassen werden, und unter den besten Layouts wählt man dann dasjenige aus, das weitere Kriterien erfüllt, beispielsweise gute Werte mit anderen Korpora (Englisch, …) oder einfache Erlernbarkeit. – Mœsi
Re: [Neo] aktueller Entwicklungsstand
On Monday 14 March 2011 13:37:38 Karl Köckemann wrote: > Nachdem ich den Leipziger Korpus für unsere Belange überarbeitet habe, > scheue ich den Aufwand, weitere Korpora für weitere Sprachen anzugehen. > Wenn es um einen gemischtsprachigen Korpus ginge, würde ich mich sogar > weigern, da ich das für den falschen Weg halte - naja, 4 % Englisch und 96 > % Deutsch ginge so gerade noch. Mein einziges Problem mit dem Leipziger Korpus ist das hier: -- -- -- -- -- -- # Conditions of use The Leipzig Corpora Collection contain text from publicly accessible sources. All data have been processed automatically so that it is not possible to reconstruct the original source texts. The corpora are protected by copyright. They are made available on the condition that they may be used for scientific purposes only and not passed on to third parties. Any use of the data must be duly documented and referenced. Commercial use of the data requires the prior written consent of the Leipzig University department for Natural Language Processing. -- -- -- -- -- -- → http://corpora.uni-leipzig.de/download.html Dürfen wir ihn überhaupt nutzen? (Ja, ich weiß, dass Lizenzen nervig sein können. Ich kann aber nichts dafür, dass die Uni-Leipzig so besch… Lizenzregeln aufstellt - wir dürfen den Korpus nichtmal weitergeben! - falls du von denen das offizielle OK haben solltest, wäre das was ganz anderes) Liebe Grüße, Arne signature.asc Description: This is a digitally signed message part.
Re: [Neo] aktueller Entwicklungsstand
Arne Babenhauserheide writes: > Wichtig: HAEIK ist nur für Testzwecke. Grund: Rein Deutscher Korpus und > veraltete Parameter. TNRS ist hat die richtigen Parameter, aber auch den rein > deutschen Korpus. Beim Überarbeiten des "Leizpiger Korpus" für unsere Belange musste ich feststellen: Rein deutschsprachig ist der Leipziger Korpus nicht! Der von uns verwendete "modifizierte Leipziger Korpus" enthält neben vielen Anglizismen auch englischsprachige Sätze. Der Anteil englischsprachiger Sätze dürfte eine Nebenwirkung der automatisierten Erfassung von Sätzen bei der Erstellung des Leipziger Korpus sein. > [...] Was jetzt v.a. noch fehlt ist ein passender Korpus: Wie soll die > Verteilung auf Deutsch und Englisch sein, und welche Texte nutzen wir? > Sollen noch andere Sprachen rein (Stichwort: Europäisches Layout)? Der "modifizierte Leipziger Korpus" deckt einen so großen Teil ab, dass ich ihn bereits als gut geeigneten bzw. passenden Korpus ansehe. Neo ist für die deutsche Sprache vorgesehen. Davon sollten wir nicht abweichen, folglich also keinen gemischtsprachigen Korpus heranziehen. Von Neo erwarte sicher nicht nur ich eine für die deutsche Sprache optimierte Tastenbelegung. Wenn ich mich richtig erinnere, hatte Ulf Bro erkannt, dass sich auf für für die deutsche Sprache optimierte Tastenbelegungen auch englischsprachige Texte sehr gut tippen lassen, ohne dass bei der Optimierung die englische Sprache als Optimierungskriterium eingeflossen ist. Da die automatische Optimierung für Neo 3 (ein herzliches Dankeschön für die daran Mitwirkenden!) mehrere gute Vorschläge liefern wird, könnten die besten Vorschläge später zusätzlich auf einen englischsprachigen Korpus angewandt werden. Als zweites Kriterium könnte die Tippbarkeit englischsprachiger Texte überprüft werden - aber bitte nicht eher, als wenn einige wenige, für die deutsche Sprache optimierte, endgültige Kandidaten feststehen. Eine europäische Tastenbelegung? Damit würde Neo sich viel zu weit von Ziel entfernen, eine für die deutsche Sprache optimierte Tastenbelegung zu schaffen. Die "Toten Tasten", wie sie bei Neo2 belegt sind, decken die Amtssprachen der deutschsprachigen Länder (Deutschland, Österreich, Schweiz, (Luxemburg)) hinreichend gut ab. Die wenigen Menschen, die tatsächlich viele weitere europäische Sprachen tippen (wollen/müssen), finden mit einer anderen dafür bereits ausgelegten Tastenbelegung eine Lösung, z. B. die Europatastatur. Nebenbei: Die Neo-Ebene mit den griechischen Buchstaben verstehe ich als einfache Möglichkeit der Eingabe von wissenschaftlich verwendeten Zeichen, allenfalls einzelner Wörter, aber nicht, um damit lange Texte in griechischer Sprache zu tippen (wofür eine für die Sprache optimierte Tastenbelegung erforderlich wäre). Also müssen die griechischen Zeichen der Belegung der ersten Ebene folgen. > Aufgabe: Freie Texte zusammenstellen, zusammen so 100-300 MiB repräsentativen > Text, gerne auch mehr. Nachdem ich den Leipziger Korpus für unsere Belange überarbeitet habe, scheue ich den Aufwand, weitere Korpora für weitere Sprachen anzugehen. Wenn es um einen gemischtsprachigen Korpus ginge, würde ich mich sogar weigern, da ich das für den falschen Weg halte - naja, 4 % Englisch und 96 % Deutsch ginge so gerade noch. Es bereitet viel Freude, in alle möglichen Richtungen zu probieren. Dabei kann riskiert man, vom Weg abzukommen. Insgesamt möchte ich anregen, den Hauptaugenmerk darauf zu richten, Neo für die deutsche Sprache zu optimieren. Wenn zunächst dafür mehrere gleichgute Tastenbelegungen für die deutsche Sprache gefunden sind, dann können diejenigen in die engere Wahl gezogen werden, deren Überprüfung für einen englischsprachigen Korpus bessere Ergebnisse liefern. Auf die Weise bleibt die Optimierung für die deutsche Sprache an erster Stelle und englischsprachige Texte werden sich dennoch gut tippen lassen. Mit netten Grüßen Karl
Re: [Neo] aktueller Entwicklungsstand
On 13.03.2011 17:59, Arne Babenhauserheide wrote: Aktuell würde ich die Parameter nun als gut einstufen. Was jetzt v.a. noch fehlt ist ein passender Korpus: Wie soll die Verteilung auf Deutsch und Englisch sein, und welche Texte nutzen wir? Sollen noch andere Sprachen rein (Stichwort: Europäisches Layout)? Da brauche ich definitiv Hilfe - kann (und will) ich nicht alleine entscheiden und kann es auch alleine nicht gut genug stemmen, denke ich. Aufgabe: Freie Texte zusammenstellen, zusammen so 100-300 MiB repräsentativen Text, gerne auch mehr. Das geht vielleicht Michael Gattinger an. Ich würde, wie schon mehrfach vorgeschlagen, _keinen_ Mehrsprachen-Mischkorpus erstellen. Stattdessen sollte der Algorithmus auf einen homogenen Korpus (Deutsch) losgelassen werden, und unter den besten Layouts wählt man dann dasjenige aus, das weitere Kriterien erfüllt, beispielsweise gute Werte mit anderen Korpora (Englisch, …) oder einfache Erlernbarkeit. – Mœsi
Re: [Neo] aktueller Entwicklungsstand
On Monday 14 March 2011 02:31:59 Florian Janßen wrote: > ich steh quasi vor dem gleichen Problem wie Pascal, ich bin nach Neo 2.0 > für ne Zeit ausgestiegen, habe jetzt wieder Luft, weiß aber nicht genau > wie wo was gerade läuft. Dann ein kurzes update: Ein paar Leute hier experimentieren mit Hardware. Bald sollten auch die Truly Ergonomics ankommen (→ testen, wie gut die sind). Bis Ende letzten Jahres haben wir gemeinsame Optimierungsläufe gemacht und am Optimierer gefeilt. Dann habe ich mich entschieden, einen Langzeittest mit HAEIK zu machen, um zu sehen, wie es in hohen Geschwindigkeiten ist. Wenn ich dabei Probleme gesehen habe, habe ich den Optimierer angepasst, um die in Zukunft zu vermeiden, aber nicht am Layout rumgedoktort (nachdem ich das einmal probiert habe und es mir wochenlang Probleme gemacht hat). Ein praktisches Beispiel für die Schwächen (die inzwischen vom Optimierer vermieden werden): „azyklischer Pfand“ („azyk“ ist sozusagen ein worst-case Wort). xyoü, pclmvß haeik dtnrsw zäöu. bgjqf > Arne Babenhauserheide schrieb am 13.03.2011 um 17:59 Uhr: > > TNRS ist hat die richtigen Parameter, aber auch den rein > > deutschen Korpus. > > Wo finde ich die Belegung? https://bitbucket.org/ArneBab/evolve-keyboard- layout/src/ef3cab7756b3/empirie/haeik.txt xyoü, pclmvß haeik dtnrsw zäöu. bgjqf https://bitbucket.org/ArneBab/evolve-keyboard- layout/raw/ef3cab7756b3/empirie/haeik.xmodmap Die xkbmap habe ich leider noch nicht drin, da sie bei mir leider nicht lief. > Wie sehen die (vorläufigen) höheren Ebenen > aus? 3 und 4 bleiben, 5 und 6 wandern mit? Jupp. > > Da brauche ich definitiv Hilfe - kann (und > > will) ich nicht alleine entscheiden und kann es auch alleine nicht gut > > genug stemmen, denke ich. Aufgabe: Freie Texte zusammenstellen, > > zusammen so 100-300 MiB repräsentativen Text, gerne auch mehr. > > Wieviel Aufwand ist es eine Belegung gegen einen neuen Korpus zu testen? Mit vorgenerierten nGrammen (1gramme.txt, 2gramme.txt, 3gramme.txt) braucht es nur ein paar Sekunden. Beim einfachen testen verschiedene Korporae(¿Schreibung?): Bei 300 MiB Korpus etwa 20min. Bei einem kleineren Korpus entsprechend kürzer: ./check_neo.py -v --check-string "lay out grund ebene string form" --file korpus.utf8.txt ./bigramm_statistik.py --svg --svg-output neu.svg -l "lay out grund ebene string form" --file korpus.utf8.txt Jeweils etwas über 10min bei 300MiB Korpus. Das gibt die Statistiken und das SVG. Liebe Grüße, Arne -- Ich hab' nichts zu verbergen – hab ich gedacht: - http://draketo.de/licht/lieder/ich-hab-nichts-zu-verbergen !! ~/.xmodmap !! Haeik lime !! !! based upon the Modifiers and levels 3 – 7 of !! !! German Neo-Layout !! adopted 2004 by Hanno Behrens !! inspired by Dvorak/de-ergo http://www.goebel-consult.de/de-ergo/ !! Authors: !! Benjamin Kellermann !! Erik Streb !! Pascal Hauck !! !! Other Questions: !! !! !! $Revision: 2332 $, $Date: 2010-08-06 08:42:35 +0200 (Fr, 06. Aug 2010) $ !! http://neo-layout.org !! !! To try the layout in this file, simply do xmodmap . !! To load the layout in this file at X startup, simply store it as !! ~/.xmodmap !! !! !! This file generated by generiere_xmodmap.py !! Ruthard Baudach ! Ebenen ! Ebene 1: normal ! Ebene 2: Shift ! Ebene 3: Mod3 ! Ebene 4: Mod4 (zum Markieren Shift+Mod4) ! Ebene 5: Shift+Mod3 ! Ebene 6: Mod3+Mod4 (in dieser Reihenfolge!) ! Ebene 7: wird (bis auf technisch bedingte Ausnahmen) nicht belegt ! Multi_key=Compose (keine eigene Ebene): Mod3+Tab or right window key ! Feststellen/Shift_Lock: Shift+Shift ! Mod4_Lock: Mod4(rechts)+Mod4(links) ! Reihenfolge der Ebenen in der Xmodmap: !Ebene1 Ebene2 Ebene3 Ebene5 Ebene4 Ebene4+Sh Ebene6 Ebene7 ! Modifier definition clear Lock clear Mod2 ! Mod2 war NumLock ! clear Mod3 clear Mod5 ! Shift ! 50=left 62=right ! Shift+Shift ergibt ein ShiftLock (wie Caps, wirkt aber auf alle Zeichen, nicht nur auf Großbuchstaben) ! Der Lock lässt sich durch ein weiteres Shift lösen. ! Eigentlich (siehe Referenz) sollte hier ein CapsLock stehen. keycode 50 = Shift_L Shift_Lock keycode 62 = Shift_R Shift_Lock ! Mod3 ! 66=left 51=right ! Make CapsLock an modifier called Mod3 (similar to AltGr) (Mode_switch or ISO_Group_Shift is for 3rd and 4th level) ! Make former CapsLock and qwertz-# to Mode_switch or ISO_Group_Shift ! Mod3(links) (=Qwertz-Caps) erlaubt nur 4 Ebenen ! Ohne einen Eintrag in der zweiten Gruppe (=Ebene 3) ergäbe Mod3+Mod3=Group_Shift+Group_Shift=Gruppe 3=Ebene 6.
Re: [Neo] aktueller Entwicklungsstand
On 03/14/11 00:24, Pascal Hauck wrote: Am Sonntag, 13. März 2011, 17:59:54 schrieben Sie: [...] Die Englische Sprache soll – in angemessen geringem (!) Umfang – Berücksichtigung finden, der deutliche Schwerpunkt muss aber auf der Deutschen Sprache liegen. Tatsächlich schreibt die Mehrheit doch zu weit mehr als 90% aller Texte in der Muttersprache, wobei damit zu rechnen ist, dass bereits durch den deutschen Korpus häufige Anglizismen berücksichtigt werden. Für andere wesentliche Sprachen reicht es, einen kurzen Blick auf die häufigsten 20 Wörter zu werfen. Die meisten wie z.B. „le“ oder „mundo“ werden ohnehin gut funktionieren¹. Für andere wie „avoir“ oder “soy“ kann eine Variation versucht werden, sofern daraus nicht andere Einbußen erwachsen. [...] Wie wäre es hier, da der Optimierer ja automatisch arbeitet (?), eine Abstufung anzubieten: z.B.: 100% deutsch (ev. als default 75 % deutsch + 25 % englisch 50 / 50 25 % deutsch + 75 % englisch 100 % englisch (falls bedarf besteht) diese Aufteilung kann man beliebig fein weitertreiben... (auch wenn das Ganze die Auswahl der Texte nicht obsolet macht)... dies könnte mann (fast) in Beliebiger Sprach-Kombination ebenso durchführen (ev. sogar mit mehreren)... wobei ich durchaus einsehe, das diese Flexibilität an anderer Stelle kostet! Peter
Re: [Neo] aktueller Entwicklungsstand
Hallo, ich steh quasi vor dem gleichen Problem wie Pascal, ich bin nach Neo 2.0 für ne Zeit ausgestiegen, habe jetzt wieder Luft, weiß aber nicht genau wie wo was gerade läuft. Arne Babenhauserheide schrieb am 13.03.2011 um 17:59 Uhr: > TNRS ist hat die richtigen Parameter, aber auch den rein > deutschen Korpus. Wo finde ich die Belegung? Wie sehen die (vorläufigen) höheren Ebenen aus? 3 und 4 bleiben, 5 und 6 wandern mit? > Da brauche ich definitiv Hilfe - kann (und > will) ich nicht alleine entscheiden und kann es auch alleine nicht gut genug > stemmen, denke ich. Aufgabe: Freie Texte zusammenstellen, zusammen so 100-300 > MiB repräsentativen Text, gerne auch mehr. Wieviel Aufwand ist es eine Belegung gegen einen neuen Korpus zu testen? Gruß Florian signature.asc Description: OpenPGP digital signature
Re: [Neo] aktueller Entwicklungsstand
Am Sonntag, 13. März 2011, 23:17:32 schrieb Arne Babenhauserheide: > Also lieber nicht das Top- > Layout auswählen, sondern dasjenige von den Top10 oder Top100, das am > leichtesten zu lernen ist. > > Dann noch anpassen, um es noch logischer und ästhetisch ansprechender zu > machen (und dabei jeden Schritt prüfen, dass er die Wertung nicht zu sehr > verschlechtert, ansonsten einen anderen Schritt testen). Das kann man nur uneingeschränkt unterstreichen. > TNRS ist damit nicht als Neo 3 geeignet. Da ich mich nicht nur als Endbenutzer sehe, geht es mir natürlich nicht um eine fertige Neo3 – das wird und muss noch lange dauern. Jedoch teste ich gerne eine lohnende Belegung, um eine Einschätzung zu geben. Wenn es diese zu testen lohnende aber noch nicht gibt, ist auch das in Ordnung – macht einfach einen Aufruf, wenn es so weit ist. In diesem Zusammenhang erinnere ich gerne noch einmal an die – immer mal wieder aktuelle – Idee einesNewsletters, der alle paar Monate kurz über den aktuellen Stand informiert und/oder zum Testen aufruft. Viele an Neo interessierte wollen verständlicherweise nicht die gesamte Liste abonnieren und alle Mails lesen. Gruß, Pascal
Re: [Neo] aktueller Entwicklungsstand
Am Sonntag, 13. März 2011, 17:59:54 schrieben Sie: > Wie soll die Verteilung auf Deutsch und > Englisch sein, und welche Texte nutzen wir? Sollen noch andere Sprachen > rein (Stichwort: Europäisches Layout)? Meines Wissens haben bereits mehrere derjenigen, die sich mit dem Relevanz des Korpus für Neo befasst haben, festgestellt, dass die Wahl der Texte die Belegung beeinflusst. Dies bedeutet zugleich, dass eine für die deutsche Sprache optimierte Belegung nicht gleichzeitig optimal für eine andere Sprache sein kann. Ein europäisches Layout wäre somit ein Kompromiss, aber für keine Sprache eine gute – oder gar optimale – Belegung. Damit würde Neo seinem eigenen Anspruch nicht gerecht. Die Englische Sprache soll – in angemessen geringem (!) Umfang – Berücksichtigung finden, der deutliche Schwerpunkt muss aber auf der Deutschen Sprache liegen. Tatsächlich schreibt die Mehrheit doch zu weit mehr als 90% aller Texte in der Muttersprache, wobei damit zu rechnen ist, dass bereits durch den deutschen Korpus häufige Anglizismen berücksichtigt werden. Für andere wesentliche Sprachen reicht es, einen kurzen Blick auf die häufigsten 20 Wörter zu werfen. Die meisten wie z.B. „le“ oder „mundo“ werden ohnehin gut funktionieren¹. Für andere wie „avoir“ oder “soy“ kann eine Variation versucht werden, sofern daraus nicht andere Einbußen erwachsen. Jedoch sollten zwei Punkte bedacht werden: ⅰ) Jede Verbesserung für eine Sprache muss auf negative Folgen für eine andere (vor allem für das Deutsche!) überprüft werden – alleine deswegen sollten diese Versuche nicht übertrieben werden ⅱ) Obwohl „eno“ auf Neo2 wunderbar zu tippen ist, ist „señor“ deutlicher schwieriger. Somit müssten auch die diakritischen Zeichen und deren Erzeugung berücksichtigt werden – und auch hier wird vermutlich die Verbesserung für eine Sprache eine Verschlechterung für eine andere bedeuten. Alleine diese flüchtigen Gedanken machen deutlich, welch hohen Arbeitsaufwand dies bedeuten kann und wie gering der Nutzen vermutlich wäre. Gruß, Pascal ¹ Diese Wörter sind bereits mit Neo2 angenehm zu tippen
Re: [Neo] aktueller Entwicklungsstand
On Sunday 13 March 2011 17:59:54 Arne Babenhauserheide wrote: > 1) Die Belegung ist etwas unten-lastig. Dadurch ist die Grundstellung der > Zeigefinger zwischen der Grundstellung und der unteren Reihe und die Zahlen > sind weiter weg. → d > > 2) Wenn ich zwei nebeneinanderliegende Finger spreizen muss, ist das sehr > unschön (Neo 2: ao, haeik: nd). → h > > 3) wenn Tasten einmal einwärts und ein andermal auswärts bedient werden, > lädt das zu Fehlern ein → i (auch Zeigefinger-zu-X bestrafen). > > 4) Wenn ich die Hand aus dem Gleichgewicht ziehe und dann eine weit > entfernte Taste drücken muss, ist das sehr unschön → a Wichtiges vergessen: Das ü oben stört auch nach über einem Monat noch mehr als ich dachte. +1 für leichte Lern- und Merkbarkeit. Also lieber nicht das Top- Layout auswählen, sondern dasjenige von den Top10 oder Top100, das am leichtesten zu lernen ist. Dann noch anpassen, um es noch logischer und ästhetisch ansprechender zu machen (und dabei jeden Schritt prüfen, dass er die Wertung nicht zu sehr verschlechtert, ansonsten einen anderen Schritt testen). TNRS ist damit nicht als Neo 3 geeignet. Fazit: Noch nicht für Endbenutzer geeignet, aber inzwischen immerhin in Alphaphase. Für die Beta fehlt nur noch ein repräsentativer Korpus. Liebe Grüße, Arne signature.asc Description: This is a digitally signed message part.
Re: [Neo] aktueller Entwicklungsstand
Hi Pascal, Aktuell tippe ich mit HAEIK/Salma 300 Zeichen pro Minute. Grundlegend tippt is sich sehr schön, allerdings habe ich ein paar Probleme bemerkt - und sie in den Optimierer einfließen lassen. Wichtig: HAEIK ist nur für Testzwecke. Grund: Rein Deutscher Korpus und veraltete Parameter. TNRS ist hat die richtigen Parameter, aber auch den rein deutschen Korpus. Erstmal die Probleme von HAEIK: 1) Die Belegung ist etwas unten-lastig. Dadurch ist die Grundstellung der Zeigefinger zwischen der Grundstellung und der unteren Reihe und die Zahlen sind weiter weg. → d 2) Wenn ich zwei nebeneinanderliegende Finger spreizen muss, ist das sehr unschön (Neo 2: ao, haeik: nd). → h 3) wenn Tasten einmal einwärts und ein andermal auswärts bedient werden, lädt das zu Fehlern ein → i (auch Zeigefinger-zu-X bestrafen). 4) Wenn ich die Hand aus dem Gleichgewicht ziehe und dann eine weit entfernte Taste drücken muss, ist das sehr unschön → a Was noch anzudenken wäre: Das allgemeine Gleichgewicht zwischen oberer und unterer Zeile prüfen und Ungleichgewichte bestrafen. Aber da bin ich nicht sicher. Dann die Lösungsansätze; dabei sind auch ein paar, die mir durch Optimierungsergebnisse mit den geänderten Parametern aufgefallen sind: a) increase the cost of no handswitching after disbalancing if the second key is on a different row (f830bd9888cc) b) halved the cost of general no handswitching after unbalancing, since the evil special cases are much more expensive, now (1 row: x2, 2 rows: x5). (033c4f7f5d80) c) nonlinear weigting of very frequent bigrams. (78b61cc22f25) d) ~20% increase of the cost of the good lower keys: they disturb the flow in >250cpm typing. (d7b2b662011e) f) rows²: bad, bad warped standard-keyboard: lower line shifted ¼ key to the right. (81a7a909cd93) g) moving upwards to short fingers is bad: add ¼ (77b38320c836) h) neighboring after unbalancing is now just as bad as unbalancing after neighboring. (247c904ea556) i) movement patterns: index to middle is worse than index to ring. (1fe453c7c083) j) increased the cost for finger disbalance by ⅓: The index finger got too much load (e on index). (dfb71a331f60) Aktuell würde ich die Parameter nun als gut einstufen. Was jetzt v.a. noch fehlt ist ein passender Korpus: Wie soll die Verteilung auf Deutsch und Englisch sein, und welche Texte nutzen wir? Sollen noch andere Sprachen rein (Stichwort: Europäisches Layout)? Da brauche ich definitiv Hilfe - kann (und will) ich nicht alleine entscheiden und kann es auch alleine nicht gut genug stemmen, denke ich. Aufgabe: Freie Texte zusammenstellen, zusammen so 100-300 MiB repräsentativen Text, gerne auch mehr. Das geht vielleicht Michael Gattinger an. Sobald wir den haben: 10.000 Layouts generieren und dann aus den 100 besten das fertige Layout wählen; von Hand und nach ästhetischen, Merk- und Lerntechnischen Kriterien - idealerweise mit den Bigrammbildern als Stütze. Im Zweifelsfall auch ein paar Tasten tauschen und bei jedem Tauschen prüfen, wie sich die Werte verändert haben (um keine gravierenden Probleme zu schaffen). Liebe Grüße, Arne signature.asc Description: This is a digitally signed message part.
[Neo] aktueller Entwicklungsstand
Hallo, zwar werde ich mich nicht mehr so intensiv mit Neo beschäftigen wie früher. Dennoch hätte ich bald etwas Zeit, um mich in eine andere Belegung einzuarbeiten. Wenn ich die Lage richtig einschätze, gibt es derzeit mehrere favorisierte Belegungen, die nebeneinander existieren. Die Frage bei automatisch generierten bzw. berechneten „guten“ Belegungen ist natürlich, ob sie sich auch im Alltag bewähren können. Darum wäre ich zum ersten für einen kurzen (!) Statusbericht dankbar. Zum anderen wäre ich bereit, eine (!) neue Belegung einige Wochen zu testen und eine Rückmeldung zu geben. Diese Arbeit ist jedoch nur dann sinnvoll, wenn es eine Belegung gibt, die einerseits genügend Anerkennung besitzt und andererseits nicht bereits von der Entwicklung des/der Optimierer/s eingeholt worden ist. Ist Haeik/Salma langfristig als Belegung der Wahl geplant und haltbar? Welche Nachteile sind bereits erkannt? Welche Maßnahmen werden dafür ergriffen? Welche Anerkennung und welchen Rückhalt besitzen aktuelle Ergebnisse wie Trns? Ist es überhaupt lohnend, sich länger mit einer solchen Belegung zu befassen und wird sie bereits in kurzer Zeit obsolet und durch eine andere ersetzt? Wie große ist der tatsächlich bemerkbare Fortschritt gegenüber Haeik/Salma einzuschätzen? Gruß, Pascal