Re: [Neo] Optimierer TODO: Was noch fehlt

2011-04-17 Diskussionsfäden Joke de Buhr
Hallo,

ich benutzte Neo2 zwar erst seit knapp zwei Wochen, aber gerade die Position 
der rechten Mod3‐Taste, fand ich schon nach wenigen Tagen störend. Sie lässt 
sich nicht so einfach greifen wie etwa die rechte Shift‐Taste, obgleich sie 
für viele Sonderzeichen wichtig ist.

On Saturday 16 April 2011 23:30:21 Peter Eberhard wrote:
 Ganz grob zusammengefasst:
 • Wichtigster Vorschlag: Mod3r auf Neo2-y (Qwertz-ä), für Symmetrie,
 Erreichbarkeit, Erlernbarkeit und Kompatibilität

Auch ich dachte bereits nach wenigen Tagen mehrfach daran, das Layout 
entsprechend des oberen Vorschlags anzupassen. Aufgrund des Aufwandes habe ich 
dies bis jetzt jedoch gescheut.

Für den Tausch von Neo2‐y mit Mod3 spricht, dass durch den Wechsel viele 
Sonderzeichen der linken Hand leichter zu greifen sind.

Auch wenn Neo2 nicht für Programmierer gedacht ist, so benötigt man etwa:
  • /~$`|*# für die Arbeit auf der Konsole
  • {}[]_ für viele Programmiersprachen
  • \{}[] für Texte in LaTeX
  • *$ für Tabellenkalkulation im Office‐Bereich

Zwar würde der Tausch die Position des Y als auch des @ verschlechtern, jedoch 
gilt:
  • Y ist ein sehr seltener Buchstabe im Deutschen
  • @ wird nur in E‐Mailadressen und einigen Programmiersprachen benötigt
  • die Taste selbst wird nicht in Verbindung mit Mod3 (rechts) gegriffen


Viele Grüße
Joke


signature.asc
Description: This is a digitally signed message part.


Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-17 Diskussionsfäden Karl Köckemann
Florian Janßen writes:
 Der Text liegt dann im Wikisyntax vor. Weiß jemand ob es schon Tools
 gibt um aus dem Wikitext normalen Text zu erzeugen?

Karl schrieb am 16.04.2011 um 18:17 Uhr:
 In letzter Zeit habe ich mir den Wikipedia-XML-Dump öfter und
 genauer angesehen.
 Den so sauber geputzt zu bekommen, wie ich es für notwendig erachte, halte
 ich jetzt für noch schwieriger, als wonach es auf den ersten Blick
 ausschaut. (@Florian: Kannst Du mal die Skripte vorstellen - egal auf
 welchem Stand -, mit denen Du das Putzen angegangen bist. Das könnte
 enorm weiter helfen (Brett_vorm_Kopf_hab).)
 Manche Markups kommen verschachtelt vor, manche sogar fehlerhaft, was für
 Reguläre Ausdrücke grundsätzlich schwierig ist.

 Ja, es gibt einige die kaputt, oder sehr verschachtelt sind. Teilweise
 wird auch noch HTML verwendet (was ich bisher nur teilweise erfassen kann).

 Meine zum Putzen verwendeten Ausdrücke sind habe ich am Ende angehängt.
 Es gibt noch einiges zu verbessern, aber im Bezug auf die relative
 Häufigkeit der Buchstaben-N-Gramme ist es eher zu vernachlässigen. Bei
 N-Grammen mit Sonderzeichen dürfte es allerdings noch etwas auffallen.

Florian Janßen schrieb am 17.04.2011 um 13:50 Uhr:
 Mit welchem Tool packst du die 8GB-Datei an?

Die teils aus anderen Themen stammenden Zitate seien in diesem Thema
zusammengefasst aufgegriffen.

Die 8-GB-Datei habe ich ebenfalls gesplittet, weil mein Rechner damit so sehr an
seine technischen Grenzen stößt, dass die Bearbeitung als Einzeldatei leider zu
zeitaufwendig wurde.

Unter Ubuntu-Linux wurde die Datei mit dem Befehl namens split in 12 gleich
große Dateien gesplittet.
Danach wurde in jeder Datei nach dem letzten \page gesucht und der daran
anschließende restliche Text bis zum Dateiende ausgeschnitten und an den anfang
der nächsten Datei eingefügt. Dadurch enthalten alle Dateien vollständige
Artikel, wodurch auf alle Dateien dieselben Funktionen zum Putzen anwendbar 
sind.
Als Editor erwies sich die Windowsversion von UltraEdit als der einzige
gefundene Editor, der in der Lage ist, enorm große Dateien in vertretbar kurzer
Zeit in der von uns gewünschten Weise zu bearbeiten. UltraEdit kann auch die
8-GB-Datei verkraften, wozu aber der Rechner bestenfalls mit z. B. 16 GB RAM und
einer SSD ausgestattet sein sollte - was bei dem mir zur Verfügung stehenden
Rechner nicht gegeben ist.

Auf dem zur Verfügung stehenden Rechner sind zwei Windowsprogramme, mit denen
sich Regulären Ausdrücke allerbestens testen und anwenden lassen:
RegexBuddy zum Testen von Regulären Ausdrücken und
PowerGREP zum Anwenden von Regulären Ausdrücken.

Bislang habe ich also noch keine Skripte geschrieben, sondern erst einmal nur
reguläre Ausdrücke ausprobiert. Dabei wurden Schwachpunkte in der 8-GB-Datei
aufgedeckt - und: Meine MediaWiki-Markup-Kenntnisse sind zu gering, so dass es
mir schwer fällt, zu entscheiden, was in welcher Reihenfolge wie geputzt werden
sollte.

Worin ich mir inzwischen ziemlich sicher bin:
Alle Überschriften innerhalb eines Artikels sollten entfernt werden, da sie
aufgrund des lexikalischen Charakters viel zu häufig vorkommen. Aufgrund der
Größe des Korups können wir uns das erlauben.

Die XML-Struktur des Textes packe ich zunächst mal nur teilweise an, da manche
Befehle für das weitere Putzen notwendig sein könnten.

Bei den Regulären Ausdrücken bin ich mir recht sicher, dass sie zu einem
vertretbar guten Ergebnis führen sollen:
Sprachkürzelhaltige interWikis löschen (Nebenwirkung: Einträge, die [ oder ]
darin verschachtelt haben, bleiben stehen)(Beim Kopieren aus der Mailingliste
die Zeilenumbrüche entfernen, d. h. die Regex steht in einer langen Zeile)
\n??\[(?:\[(ab|abq|ace|ady|af|ain|ak|aln|als|alt|am|amr|an|ang|anp|ar|arc|arn|
aro|arq|ary|arz|as|ast|atv|av|ay|az|azb|ba|ban|bar|bat-smg|bcc|bcl|be|be-x-old|
bfq|bg|bh|bi|bjn|bm|bn|bo|bpy|bqi|br|brx|bs|bto|bug|bxr|ca|cbk-zam|cdo|ce|ceb|
ch|chi|chn|cho|chr|chy|ckb|ckt|co|cr|crh|cs|csb|cu|cv|cy|da|de|diq|dng|dsb|dv|
dz|ee|el|eml|en|enm|eo|es|ese|et|eu|ext|fa|ff|fi|fil|fiu-vro|fj|fo|fr|frp|frr|
fur|fy|ga|gag|gan|gd|gl|glk|gn|gom|got|grc|gu|gv|ha|hak|haw|haz|he|hi|hif|hil|
ho|hr|hsb|hsn|ht|hu|hy|hz|ia|ibb|id|ie|ig|ii|ik|ilo|inh|io|is|it|iu|ja|jam|jbo|
jct|jv|ka|kaa|kab|kac|kbd|kg|ki|kiu|kj|kjh|kk|kl|km|kn|ko|koi|krc|krj|krl|ks|
ksh|ku|kum|kv|kw|ky|la|lad|lb|lbe|lez|lg|lhu|li|lij|liv|lld|lmo|ln|lo|loz|lrc|
lt|ltg|lus|lv|lzz|mad|mai|map-bms|maz|mdf|mfe|mg|mh|mhr|mi|min|mk|ml|mn|mnc|mr|
mrj|ms|mt|mwl|mww|my|myv|mzn|na|nah|nap|nds|nds-nl|ne|new|ng|niu|njo|nl|nn|no|
non|nov|nrm|nso|nv|ny|oc|om|or|os|ota|ote|otk|pa|pag|pam|pap|pcd|pdc|pdt|pes|
pfl|pi|pih|pko|pl|pms|pnb|pnt|pny
\[4\]|ppl|prs|ps|pt|qu|rar|rif|rm|rmy|rn|ro|roa-rup|roa-tara|rtm|ru|rue|ruq|rw|
ryu|sa|sah|sc|scn|sco|sd|sdc|se|sei|sg|sgc|sh|shi|si|simple|sk|skr|sl|sli|slr|
sm|sma|sn|so|sq|sr|srn|ss|st|stq|su|sv|sw|swg|szl|ta|tcy|te|tet|tg|th|ti|tk|tl|
tn|to|tpi|tr|trp|ts|tsd|tt|tum|tvl|tw|ty|tyv|tzm|udm|ug|uk|ur|uun|uz|ve|vec|

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-17 Diskussionsfäden Karl Köckemann
Florian Janßen please.mail at gmx.de writes:

 Weiß jemand ob es schon Tools
 gibt um aus dem Wikitext normalen Text zu erzeugen?

Nachtrag:
Im Internet fand ich wenige Tools zum Entfernen von MediaWiki-Markup. Wie sie
angewendet werden, das übersteigt meine Kenntnisse.

http://toolserver.org/~magnus/wiki2xml/w2x.php
basiert auf:
http://svn.wikimedia.org/viewvc/mediawiki/trunk/parsers/wiki2xml/php/xml2txt.php?revision=71620view=markup

Hier ein anderes Tool:
https://github.com/rdblue/marker

Hier ein Hinweis auf ein Tool:
http://code.google.com/p/gwtwiki/wiki/Mediawiki2PlainText

Mit netten Grüßen
Karl




Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-17 Diskussionsfäden Michael Gattinger

Hallo, leider sehe ich die E-Mail gerade erst.

Ich bin seit 2 Monaten dabei mir ein Programm zu schreiben, die mir eine 
Wikipedia-Source verarbeitet und habe sie fast fertiggestellt.

Ich persönlich habe eine 40GB source von Wikipedia in HTML vorliegen.

Ich muss also
- das HTML entfernen
- Entities übersetzen
- Wiederholende Sachen, wie  [Bearbeiten] oder -- Nickname HH:MM, DD. 
MMM.  (CEST) entfernen


Die Einzelteile zu HTML entfernen und Entities übersetzen liegen mir 
bereits vor und müssen nurnoch zusammengefügt werden.


Übrigends soll das Programm noch mehr können, weshalb es noch nicht 
fertig ist, die restlichen Programmteile sind aber auch schon quasi 
Fertig und müssen nurnoch zusammengebastelt werden damit alles zusammen 
harmoniert.


Weitere Informationen auf Anfrage.


Mit freundlichen Grüßen

Michael Gattinger

Am 24.03.2011 13:51, schrieb Florian Janßen:

Hallo,

die Wikipedia Seiten und Artikel vom 01.02.2011 liegen mir als xml-Datei
(gut 8GB) vor und ich ein Skript geschrieben, dass mir die Relevanten
Text-Knoten extrahiert. Vorerst erstelle ich für jeden Artikel einen
eigene Datei.

Der Text liegt dann im Wikisyntax vor. Weiß jemand ob es schon Tools
gibt um aus dem Wikitext normalen Text zu erzeugen?

Gruß Florian







Re: [Neo] Optimierer TODO: Was noch fehlt

2011-04-17 Diskussionsfäden Trenkwalder Marian
Karl wrote:
 Kannst der Optimierer eine Liste nennen, welche Buchstaben auf die eine
 und welche auf die andere Hand gehören, damit die Handwechsel maximal
 werden?

Kann mir mal jemand erklären, was an einem maximalen Handwechsel positiv 
sein soll?
Mir fällt nur auf, dass die Buchstaben bei einem Handwechsel eher 
vertauscht ankommen. z. B:(neo2) alles ⇒ allse



Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-17 Diskussionsfäden Pascal Hauck
Am Sonntag, 17. April 2011, 16:15:47 schrieb Michael Gattinger:
 Ich bin seit 2 Monaten dabei mir ein Programm zu schreiben

Ich bin ungern derjenige, der eine engagierte Arbeit möglicherweise hinfällig 
macht. Dennoch wundere ich mich darüber, dass so leichtfertig und 
unhinterfragt eine Enzyklopädie als sinnvoller Korpus erachtet wird.

Neo2 ist bereits eine gute Tastatur, bei einer zukünftigen Neo3 darf man 
durchaus von „hochoptimiert“ sprechen. Eine so weitgehende Optimierung setzt 
natürlich voraus, dass sämtliche Zwischenschritte – insbesondere die Wahl des 
Korpus – den gleichen hohen Ansprüchen genügen.
Genau dies sehe ich bei der Wikipedia für unsere Zwecke nicht geben!

Natürlich ist die umfangreiche, freie und leicht zugängliche Textmenge 
verführerisch – jedoch deckt sich der lexikalische Schreibstil nicht mit dem 
eines gängigen Anwenders.

Das vermutlich einfachste und zugleich einsichtigest Beispiel ist das Wort 
„ich“. Wärend fast keine E‑Mail ohne dieses Wort auskommt, hat ein 
Stichprobentest in nur einem von 10 Wikipedia‑Artikeln einen Treffer egeben – 
und zwar in einem Zitat. Gleiches gilt für andere Wörter: du, wir, uns, mir, 
mich, sich, …

Da ein Großteil der am PC geschriebenen Texte zur Kommunikation gehören 
(E‑Mail, Chat, IRC, Twitter, soziale Netzwerke, …) sehe ich die einen 
enzyklopädischen Korpus kritisch.
Jede darauf aufbauende Optimierung ist zumindest fraglich und kann nicht 
zweifelsfrei behaupten, die selbst gesteckten hohen Ansprüche zu erfüllen.


Skeptische Grüße,
Pascal



Re: [Neo] Optimierer TODO: Was noch fehlt

2011-04-17 Diskussionsfäden Pascal Hauck
Am Sonntag, 17. April 2011, 13:16:01 schrieb Trenkwalder Marian:
 Mir fällt nur auf, dass die Buchstaben bei einem Handwechsel eher 
 vertauscht ankommen. z. B:(neo2) alles ⇒ allse

Ein schönes Beispiel dafür, wie wichtig der Handwechsel ist.
Bei „allse“ statt „alles“ hast du unbewusst einen – hier nicht erforderlichen 
– Handwechsel von „l“ zu „s“ gemacht. Je mehr Handwechsel also beim tippen 
aufreten, desto weniger solche Fehler werden entstehen.


Gruß,
Pascal



Re: [Neo] Optimierer TODO: Was noch fehlt

2011-04-17 Diskussionsfäden Florian Janßen
Pascal Hauck schrieb am 17.04.2011 um 19:11 Uhr:
 Ein schönes Beispiel dafür, wie wichtig der Handwechsel ist.
 Bei „allse“ statt „alles“ hast du unbewusst einen – hier nicht erforderlichen 
 – Handwechsel von „l“ zu „s“ gemacht. Je mehr Handwechsel also beim tippen 
 aufreten, desto weniger solche Fehler werden entstehen.

Merkwürdige Logik.

Gruß Florian



signature.asc
Description: OpenPGP digital signature


Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-17 Diskussionsfäden Karl Köckemann
Pascal Hauck neo at pascalhauck.de writes:

 Da ein Großteil der am PC geschriebenen Texte zur Kommunikation gehören 
 (E‑Mail, Chat, IRC, Twitter, soziale Netzwerke, …) sehe ich die einen 
 enzyklopädischen Korpus kritisch.
 Jede darauf aufbauende Optimierung ist zumindest fraglich und kann nicht 
 zweifelsfrei behaupten, die selbst gesteckten hohen Ansprüche zu erfüllen.

Klar ist die Skepsis berechtigt. Ziel ist es, mehrere Korpora zu verwenden, um
die dadurch unterschiedlichen Ergebnisse vergleichen zu können. Deshalb wird
auch ein aus Wikipedia erstellter Korpus nicht vergebens sein.

Auch halte ich es für interessant, aus verschiedenen Korpora einen Refernzkorpus
zu erstellen.

Beim derzeit zu Probezwecken verwendeten Leipziger Korups bin ich ebenfalls
skeptisch, da er sehr viele störende Eigentümlichkeiten enthält.

Ein erheblicher Teil des Wikipediakorpus wird enorm geputzt werden müssen, z. B.
alle Tabellen, alle Aufzählungen und alle Überschriften innerhalb von Artikeln,
da beides für unsere Belange praktisch untauglich sein wird.

Bislang ist mir keine Quelle untergekommen, aus der wir einen für Neo
hochwertigen Korpus extrahieren können.

Mit netten Grüßen
Karl




Re: [Neo] Optimierer TODO: Was noch fehlt

2011-04-17 Diskussionsfäden Karl
Florian Janßen writes:

 Pascal Hauck schrieb am 17.04.2011 um 19:11 Uhr:
  Ein schönes Beispiel dafür, wie wichtig der Handwechsel ist.
  Bei „allse“ statt „alles“ hast du unbewusst einen – hier nicht 
  erforderlichen
  – Handwechsel von „l“ zu „s“ gemacht. Je mehr Handwechsel also beim tippen 
  aufreten, desto weniger solche Fehler werden entstehen.
 
 Merkwürdige Logik.

Pascals Begründung empfinde ich als gut passend.

Hm, spontan fallen mir keine weiteren Beispiele ein. Lediglich die Erfahrung
verschiedener Gruppen, die sich mit der Entwicklung von Tastaturbelegungen
befassen: Sie kommen nahezu übereinstimmend zu dem Ergebnis, dass
Tastaturbelegungen mit maximierten Handwechseln sich besonders gut tippen 
lassen.

Mit netten Grüßen
Karl






Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-17 Diskussionsfäden Pascal Hauck
Am Sonntag, 17. April 2011, 19:44:19 schrieb Karl Köckemann:
 Ziel ist es, mehrere Korpora zu verwenden, um
 die dadurch unterschiedlichen Ergebnisse vergleichen zu können.

In diesem Fall bin ich sehr dafür, die Wikipedia als EINEN Testkorpus mit 
aufzunehmen. Es ist nur wichtig, die Nachteiles dieses Korpus zu kennen – aber 
das gilt für andere natürlich ebenso.


Gruß,
Pascal



Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-17 Diskussionsfäden Florian Janßen
Pascal Hauck schrieb am 17.04.2011 um 22:11 Uhr:
 Am Sonntag, 17. April 2011, 19:44:19 schrieb Karl Köckemann:
 Ziel ist es, mehrere Korpora zu verwenden, um
 die dadurch unterschiedlichen Ergebnisse vergleichen zu können.
 
 In diesem Fall bin ich sehr dafür, die Wikipedia als EINEN Testkorpus mit 
 aufzunehmen. Es ist nur wichtig, die Nachteiles dieses Korpus zu kennen – 
 aber 
 das gilt für andere natürlich ebenso.

Natürlich ist Wikipedia kein Referenzkorpus, aber er liefert eine Menge
freien Text in halbwegs aktueller deutscher Sprache.

Ich habe vor kurzem angefangen diese Mailingliste auszuwerten, da dürfte
das Trigramm „Neo“ allerdings etwas zu häufig vorkommen ;)

Gruß Florian



signature.asc
Description: OpenPGP digital signature


Re: [Neo] Optimierer TODO: Was noch fehlt

2011-04-17 Diskussionsfäden Arne Babenhauserheide
ìm=ªí×®zßHÛX,ÈԘ*'µéíN¶§±÷«w(v)àm«뀨ž×§µ©z×±·úej)܅ªìz

[Neo] Ähnliche Buchstaben sollten nicht auf ähnlichen Positionen sein

2011-04-17 Diskussionsfäden Arne Babenhauserheide
Ich denke, wir sollten sammeln, welche Buchstaben ähnlich sind
(Verwechslungsgefahr) und daher nicht auf ähnlichen Positionen liegen sollten.

Bisher sehe ich dafür:

* pdbg
* ml
* wv
* vf
* yv
* aä
* oö
* uü
* rl (Japaner)

Und die Positionen:

* Oben vs. unten Zeige- oder Kleiner Finger.
* Oben vs. mitte bei Mittel- und Ringfinger (das fällt auf der TE weg).
* Mittel- vs. Ringfinger gleiche Hand in der gleichen Zeile.
* Horizontal gespiegelte Taste (gleiche Bewegung, nur andere Hand).

Liebe Grüße,
Arne

signature.asc
Description: This is a digitally signed message part.


Re: [Neo] Optimierer TODO: Was noch fehlt

2011-04-17 Diskussionsfäden Arne Babenhauserheide
On Saturday 16 April 2011 23:13:33 Navid Zamani wrote:
 Am 16.04.2011 12:43, schrieb Florian Janßen:
  Ist das wirklich ein wichtiger Punkt? Hat jemand bei Neo2 D und T
  verwechselt? Oder P und B? Oder ist hiermit so etwas wie – und -
  gemeint?

 Ich bin auch entschieden gegen jede Änderung, die davon ausgeht, dass
 der Nutzer dumm ist.

Es geht nicht um Dummheit, sondern darum, dass es die Lernbarkeit
beeinträchtigt. Und da die Geschwindigkeit im Hirn anfängt (Musiker können
auch 16-tel spielen: 900 Anschläge die Minute) ist die Lernbarkeit für hohe
Geschwindigkeit extrem wichtig.

 Denn die Kosten (Geschwindigkeitsverlust für alle
 nicht-Dummen… also praktisch alle)

Ich habe bei Neo 2 ständig p und b verwechselt. Wenn du mich als dumm
bezeichnen willst, ist das dein gutes Recht. Aber dass du denkst, dass ich
meine eigenen Erfahrungen ignorieren würde, gerade wo auch andere sie
bestätigt haben, halte ich für realitätsfern.

 Und Praxiserfahrung hat gezeigt, dass
 Menschen nunmal immer auf minimalen Aufwand optimieren. Was mit einer
 „Vereinfachung“ nach unten hin immer bedeutet, dass die ganze gaußsche
 Verteilungskurve nach unten rutscht: Alle geben sich weniger Mühe.

Äh, nö. Wer schnell tippen können will, kommt mit der Optimierung mit weniger
Aufwand zu höheren Geschwindigkeiten, hat also mehr Zeit, um noch schneller zu
werden.

 Und das heisst, dass es wieder genausoviele Menschen am unteren Ende
 gibt, die sich genauso beschweren.

In erster Linie gibt es mal mehr Leute, die es nutzen. Die Kurve rutscht nicht
nach unten, sondern wird einfach größer, so dass der untere Teil stärker
gesehen wird - weil der untere Teil halt auch größer wird.

 Im Allgemeinen fände ich es besser, wenn jeder für sich bei der
 Installation des Layouts seine ganz persönliche Parameterkombination
 angeben könnte.

Klar, kann jeder. Wir haben einen Xmodmap-Generator (der auch grob die höheren
Ebenen anpasst: 5 und 6) und einen Optimierer, der passende Daten ausspuckt.
Das geht also schon jetzt, und man muss nichts mehr ändern.

Kurz: Um zu erreichen, was du willst, können wir jetzt aufhören. Für dich ist
die Mission erfüllt. Ich hoffe, du nutzt den Optimierer schon genau dafür.
Falls nicht, frag dich warum.

Andere wollen aber ein Layout, das für möglichst viele Menschen eine große
Bereicherung bringt. Das mag nicht dein Ziel sein, aber dein Ziel ist ja eh
schon erreicht, also verlierst du nichts, wenn andere noch auf weitere Ziele
hinarbeiten.

Grüße,
Arne
--
Konstruktive Kritik:

- http://draketo.de/licht/krude-ideen/konstruktive-kritik



signature.asc
Description: This is a digitally signed message part.


Re: [Neo] Ähnliche Buchstaben sollten nicht auf ähnlichen Positionen sein

2011-04-17 Diskussionsfäden Pascal Hauck
Am Sonntag, 17. April 2011, 23:01:51 schrieb Arne Babenhauserheide:
 welche Buchstaben ähnlich sind  (Verwechslungsgefahr)

Seit Neo bei mir ft – vermutlich wegen des ähnlichen Aussehns.


Gruß,
Pascal




Re: [Neo] Optimierer TODO: Was noch fehlt

2011-04-17 Diskussionsfäden Arne Babenhauserheide
On Sunday 17 April 2011 11:16:01 Trenkwalder Marian wrote:
 Karl wrote:
  Kannst der Optimierer eine Liste nennen, welche Buchstaben auf die eine
  und welche auf die andere Hand gehören, damit die Handwechsel maximal
  werden?

 Kann mir mal jemand erklären, was an einem maximalen Handwechsel positiv
 sein soll?
 Mir fällt nur auf, dass die Buchstaben bei einem Handwechsel eher
 vertauscht ankommen. z. B:(neo2) alles ⇒ allse

Der Optimierer sorgt nur für Handwechsel, wenn

1. Ein Richtungswechsel kommt (adfs in QWERTZ, uai in Neo 2), oder
2. Die Hand aus der Grundposition gezogen wird (z.B. Neo 2: z/w/k)

Effektiv bedeutet das: Ziel des Optimierers: Ein Handwechsel spätestens nach 4
Anschlägen (Tastenwiederholungen ignoriert, Fingerwiederholungen vorher
ausgeschlossen).

Das wird natürlich nicht immer erfüllt, weil es auch noch andere Kriterien
gibt, aber es ist eins der Kriterien.

Liebe Grüße,
Arne

signature.asc
Description: This is a digitally signed message part.


[Neo] Kommentar zur Repräsentativität von Texten

2011-04-17 Diskussionsfäden Michael Gattinger
Es wird in Frage gestellt ob Texte nun Repräsentativ sind oder nicht. 
Hierbei wird argumentiert, dass große Texte oft auf irgendeine spezielle 
Textgattung zielen (z.b. Lexika, Zeitungen) und für sich deswegen die 
Statistik verfälschen würden. Gesucht wird also eine Textbasis, die alle 
Textgattungen, ggf. sogar verschiedene Sprachen (Deutsch, Englisch, 
Programmier) abdeckt.


Meine Feststellung 1: Selbst wenn wir einen nach diesen Regeln 
repräsentativen Text finden, ist dieser wieder nicht repräsentativ 
bezogen auf die Tastendrücke. Denn: Was wir sehen ist das Endergebnis 
was der Autor für richtig hält. Der Autor hat beim Schreiben jedoch 
Fehler gemacht. Rechtschreibfehler hat er evtl. berichtigt und beim 
schreiben von Sätzen sich den Satz vll. nochmal anders überlegt und 
anders geschrieben. So habe AUCH ICH in den letzten Sätzen, seit Meine 
Feststellung 1 mehrfach Rechtschreibfehler berichtigt oder Wörter 
gelöscht, weil ich lieber ein anderes Wort hinschreiben wollte. All 
diese gedrückten Zeichen (Und vorallem n-Gramme) seht ihr nun nichtmehr 
und werden in keiner Statistik auftauchen.


Meine Feststellung 2: Die wirklich eingetippten Zeichen können wir nur 
feststellen, indem wir (möglichst allen) Menschen einen Keylogger auf 
dem PC installieren und alle Zeichen mitloggen, die eingegeben werden.


Meine Feststellung 3: Eine Statistik ist eine Annäherung an die 
Wirklichkeit, aber niemals die Wirklichkeit. Dies muss man akzeptieren 
um weiterarbeiten zu können! Statistiken, die ähnliches Untersuchen 
werden zu ähnlichen Ergebnissen kommen. So wird e in einem Lexika vll. 
der häufigste Buchstabe sein, so wird er in einer Zeitung nicht 
plötzlich an letzter Stelle stehen.


Ausgehend davon habe ich mir überlegt, dass man verschiedene Statistiken 
zusammenrechnen könnte. So könnte man Statistiken zu {Deutschen, 
Englischen, Programmiersprachen, ...} zu den Textgattungen {Lexika, 
Diskussion, E-Mails, ...} machen und diese dann je nach Lust und Laune 
Prozentual zusammenrechnen, wenn die Statistiken neben den absoluten 
Buchstabenhäufigkeiten auch die Prozentualen enthalten:


Folgende Zahlen sind Fantasiezahlen:
In 100 Zeichen deutschem Text gibt es 20 e. Das sind 20%
In 100 Zeichen englischem Text gibt es 10 e. Das sind 10%
Im gemeinsamen Text sind in 200 Zeichen somit 30 e, das sind 15%. 
Hierbei wird also angenommen, dass englisch und deutsch gleich viel 
geschrieben wird.

Nehmen wir an, dass deutsch 80% geschrieben wird und englisch 20%.
Deutsch: 100 Zeichen * 0,80 = 80 Zeichen bzw. 20 e * 0,80 = 16 e.
Englisch: 100 Zeichen * 0,20 = 20 Zeichen bzw. 10 e * 0,20 = 2 e.
Im gemeinsamen Text sind dann 100 Zeichen bzw. 18 e, was 18% entspricht.
Natürlich kommt man zu diesem Ergebnis auch einfacher:
20% * 0,8 + 10% * 0,2 = 18%

Fazit: Wir können verschiedene Statistiken machen zu verschiedenen 
Textgattungen verschiedener Sprachen und diese dann im nachhinein so 
verrechnen wie wir möchten.



Siehe auch Re: [Neo] Wikipedia-Korpus selbstgemacht vom 17.04.2011 um 
23:48


Mit freundlichen Grüßen

Michael Gattinger




Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-17 Diskussionsfäden Michael Gattinger
Entschuldigung, ich hatte das Thema nur kurz angerissen um erste 
Reaktionen abzuwarten. Da anscheinend Interesse (welcher Art auch immer) 
besteht bin ich gerne dazu bereit näher ins Detail zu gehen:


***Gründe für das Programmieren***
Ich hatte den Ticket 250 eröffnet und darauf keine Antwort erhalten.
http://wiki.neo-layout.org/ticket/250
http://lists.neo-layout.org/pipermail/diskussion/2011-February/018339.html
Deswegen ging ich von desinteresse aus und fing an ein (bereits vor 
Jahren geschriebenes) Wörter-Zahl-Programm meines Bruder umzuschreiben, 
sodass es Wörter zählt und Wörter für Lektionen ausgibt, je nach 
Lernreihenfolge der Buchstaben, siehe weiteres Ticket 250.

Damals geplant:

(enit)(ar)(ud)(os)(ch)(lg)(Großschreibung)(pmPM)(wkWK)(zbZB)(vfVF)(ßj?J)(yüYÜ)(öäÖÄ)(xqXQ)

Heute veraltet.

Nachdem ich zu Anfang wild irgendwoher Texte kopierte merkte ich 
irgendwann, dass das so nix wird und suchte nach größeren Quellen. So 
fand ich mit dem Project-Gutenberg 
http://www.gutenberg.org/wiki/Main_Page eine Quelle von UTF8 Büchern, 
leider, wie ich feststellte meist von vor 1930. Zusätzlich fand ich nach 
endloser sucherrei eine 40GB HTML Version von Wikipedia (Artikel, 
Diskussionen, Benutzerseiten, Bilder etc.).
Wegen der Wikipedia-Quelle wollte ich mein Programm also um HTML  
Entitifilter sowie Wikipedia-Spezifische Filter ([Bearbeiten], 
Signaturen) erweitern.


Nach einem Gespräch mit Arne Babenh* stellte ich fest, dass er auf der 
Suche nach neuen Korpora ist, möglichst vielfältig. Deswegen wollte ich 
dann ein allgemeines Programm entwickeln, dass man immer wieder 
verwenden kann (Mit GUI).


***Programmspezifikation kurz und knapp***
Möglichkeit zum
a) UTF-8-kompatiblem arbeiten
b) modularen bedienen
c) speichern des (der) Ergebnisse(s) nach jedem der optionalen 
Zwischenschritte:

1) filtern von HTML in Text
2) übersetzen von Entities (nbsp; etc)  in UTF-8 Zeichen
3) filtern von Wiki-Spezifischen besonderheiten {[Bearbeiten] , -- 
Nickname HH:MM, DD. MMM.  (CEST)}

4.1) zählen von n-Grammen (Ausgabe absolut, prozentual, etc.)
4.2) zählen von Wörtern
5.1) mischen von Ergebnissen mehrer n-Gramm-Zählungen; näheres siehe unten
5.2) ausgeben von Wörtern in Lernreihenfolge; näheres siehe unten

***Erklärungen zur Programmspezifikation***
Modularer Aufbau:
Der Nutzer kann bei jedem Programmlauf entscheiden welche Funktionen er 
nutzen möchte und welche nicht. Z.b. kann er (wenn er bereits 
textbasierte Vorlagen hat) das HTML-, Entitie- und Wikipedia-Filtern 
(Nummer 1 bis 3) rauslassen und direkt mit dem zählen von n-Grammen 
anfangen und auch direkt danach aufhören.



--
# * KOMMENTAR ZUR REPRÄSENTATIVITÄT VON TEXTEN * #

Siehe E-Mail Kommentar zur Repräsentativität von Texten vom 17.04.2011 
um 23:48

---

5.1) und 4.1):
Wir haben nach 4.1) die n-Gramm-Statistik prozentual vorliegen. Nun 
machen wir dies mit verschiedenen Textgattungen ({Lexika, Diskussion, 
E-Mails, ...}) verschiedener Sprachen ({Deutschen, Englischen, 
Programmiersprachen, ...}). Dann können wir diese Prozentwerte nach 
belieben miteinander verrechnen. So könnten wir sagen: Es wird 80% 
deutsch geschrieben und 20% englisch. Oder komplizierter (nur 
beispielhaft) 10% deutsche Lexika, 20% deutsche E-Mails, 30% deutsche 
Diskussionen, 10% Programmierung, 5% englische Lexika, 10% englische 
E-Mails, 15% englische Diskussionen; Summe: 100%.


5.2) und 4.2)
Wenn wir Wörter nach deren Häufigkeit sortiert vorliegen haben können 
wir zu einem beliebigen Tastaturlayout uns eine Lernreihenfolge 
überlegen, in welcher wir die Buchstaben lernen wollen.

Z.b. (enit)(ar)(ud)(os)(ch)(lg) usw.
Nun geben in Liste eins Wörter aus, die mit {e,n,i,t} geschrieben werden 
können.
Dann geben wir eine Liste zwei mit Wörtern aus, die mit {e,n,i,t,a,r} 
geschrieben werden könne, wobei a oder r mindestens einmal vorkommen 
müssen.

usw. usf.
Daraus kann man dann Lernlektionen machen.


Derzeit haben mein Bruder und ich Urlaub, könnten das Programm also 
sofern interesse besteht in 2 Wochen fertigstellen.
Weitere Vorschläge zu Dingen, die das Programm können soll könnt ihr 
natürlich auch gerne liefern.


Mit freundlichen Grüßen

Michael Gattinger



Am 17.04.2011 19:06, schrieb Pascal Hauck:

Am Sonntag, 17. April 2011, 16:15:47 schrieb Michael Gattinger:

Ich bin seit 2 Monaten dabei mir ein Programm zu schreiben

Ich bin ungern derjenige, der eine engagierte Arbeit möglicherweise hinfällig
macht. Dennoch wundere ich mich darüber, dass so leichtfertig und
unhinterfragt eine Enzyklopädie als sinnvoller Korpus erachtet wird.

Neo2 ist bereits eine gute Tastatur, bei einer zukünftigen Neo3 darf man
durchaus von „hochoptimiert“ sprechen. Eine so weitgehende Optimierung setzt
natürlich voraus, dass sämtliche 

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-17 Diskussionsfäden Michael Gattinger

Am 17.04.2011 22:23, schrieb Florian Janßen:

Pascal Hauck schrieb am 17.04.2011 um 22:11 Uhr:

Am Sonntag, 17. April 2011, 19:44:19 schrieb Karl Köckemann:

Ziel ist es, mehrere Korpora zu verwenden, um
die dadurch unterschiedlichen Ergebnisse vergleichen zu können.

In diesem Fall bin ich sehr dafür, die Wikipedia als EINEN Testkorpus mit
aufzunehmen. Es ist nur wichtig, die Nachteiles dieses Korpus zu kennen – aber
das gilt für andere natürlich ebenso.

Natürlich ist Wikipedia kein Referenzkorpus, aber er liefert eine Menge
freien Text in halbwegs aktueller deutscher Sprache.

Ich habe vor kurzem angefangen diese Mailingliste auszuwerten, da dürfte
das Trigramm „Neo“ allerdings etwas zu häufig vorkommen ;)

Gruß Florian

Nicht nur Neo ... Auch Wörter wie Tastatur, Taste, Buchstabe, n-Gramm 
usw. sind hier völlig übervorteilt.




Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-17 Diskussionsfäden Arne Babenhauserheide
Hi Michael,

On Sunday 17 April 2011 16:15:47 Michael Gattinger wrote:
 Hallo, leider sehe ich die E-Mail gerade erst.

 Ich bin seit 2 Monaten dabei mir ein Programm zu schreiben, die mir eine
 Wikipedia-Source verarbeitet und habe sie fast fertiggestellt.

Freut mich, dass du noch dran bist! Ich hatte schon Sorgen, dass du aufgegeben
hättest, nachdem ich hier so lange nichts von dir gehört habe.

 Übrigends soll das Programm noch mehr können, weshalb es noch nicht
 fertig ist, die restlichen Programmteile sind aber auch schon quasi
 Fertig und müssen nurnoch zusammengebastelt werden damit alles zusammen
 harmoniert.

 Weitere Informationen auf Anfrage.

Gibt es die Quellen schon im Netz?

Und ist es frei lizensiert? (hatte ich das schon gefragt?)

Liebe Grüße,
Arne
--
singing a part of the history of free software:

- http://infinite-hands.draketo.de



signature.asc
Description: This is a digitally signed message part.


Re: [Neo] Optimierer TODO: Was noch fehlt

2011-04-17 Diskussionsfäden Arne Babenhauserheide
On Saturday 16 April 2011 16:17:41 Karl wrote:
 Arne Babenhauserheide writes:
  - Neuer Parameten: Keine ähnlichen Buchstaben in leicht
  verwechselbaren Positionen. Brauchen die Definitionen davon.

 Das halte ich für ein so unwichtiges Kriterium - zumal es individuell
 verschieden ist und die Datengrundlage viel zu gering -, dass es bedenkenlos
 entfallen sollte. Es ist die Mühe nicht wert, in den Optimierer
 einzufließen. Hinzu kommt, die als Grundlage erst einmal die häufigsten
 Buchstabenvertauschfehler bei Qwertz bekannt sein müssen, um herauszufinden,
 ob dieselben Buchstaben vertauscht werden oder ob es nur an
 Tastenpositionen liegt, und was der Grund dafür sein könnte, warum Menschen
 so ticken dass just diese Buchstabenvertauschfehler vorkommen.

Das versuchen wir ja rauszufinden: Deswegen habe ich nicht einfach etwas
implementiert, sondern erstmal nach Erfahrungswerten gefragt und meine eigenen
geschrieben.

Ich kenne bisher keine wissenschaftliche Arbeit, die uns auf dem Gebiet hilft
(habe zu dem Punkt aber auch noch nicht rechercheiert). Falls es keine gibt,
machen wir halt Pionierarbeit für Tastaturen…

Zu Vertauschungen in Handschrift gibt es aber sicher bereits
Forschungsarbeiten.

 Die Truly Ergonomic halte ich wegen fehlender Daumentasten für den Einsatz
 von Neo eher uninteressant.

Daumentasten fehlen, das stimmt. Die geraden Linien für die Finger ändern
allerdings die Erreichbarkeit, und sie werden ja nicht nur von der TE geboten.

  - Entscheidung? e und n auf Zeige- oder Mittelfinger, oder e auf Zeige
  und n auf Mittel? Sind da einige schon festgelegt?

 Mir ist unklar, ob schon etwas festgelegt werden sollte.
 Kannst der Optimierer eine Liste nennen, welche Buchstaben auf die eine und
 welche auf die andere Hand gehören, damit die Handwechsel maximal werden?

Das macht er je nach Ergebnis ad-hoc.

  - Neuer Korpus? Oder Leipziger Korpus, obwohl wir den nicht
  weitergeben dürfen?

 Da wir den Leipziger Korpus nur intern verwenden dürfen, wäre es mir
 inzwischen lieber, einen anderen Korpus aufzubereiten.

OK. Sehe ich eigentlich auch so, ich habe mich nur nicht rangetraut, weil ich
weiß, dass ich selbst das putzen des WP-Korpus nicht übernehmen könnte…

  Fällt euch noch was ein, das fehlt?

 Ich halte es für einen der - wenn nicht den - besten im Internet verfügbaren
 Optimierer für Tastenbelegungen.

Das freut mich :)

Hinweis allerdings: Er ist bei weitem nicht der schnellste :)

 Mir bereitet das Nachvollziehen Schwierigkeiten, welches der fein
 unterschiedenen Kriterien nun was genau bedeutet. Dahingehend verstehe ich
 die Beschreibung leider nicht.

Ist auch die Beschreibung in der Readme zu unverständlich?

https://bitbucket.org/ArneBab/evolve-keyboard-
layout/src/ad21efdb8f00/README_de.txt

bzw.

https://bitbucket.org/ArneBab/evolve-keyboard-
layout/raw/ad21efdb8f00/README_de.txt

Wenn ja, dann ist das ein Bug, der gefixt werden sollte :)

 Kurzum: Eine deutsch- und englichsprachige Beschreibung, nach der anhand von
 Beispielen auch Einsteiger verstehen können, was mit den einzelnen
 Optimierungskriterien genau gemeint ist und ob ein größerer Wert bei den
 Ergebnissen besser oder schlechter bedeutet.

Die englischsprachige ist in Arbeit, aber noch nicht fertig übersetzt…

https://bitbucket.org/ArneBab/evolve-keyboard-layout/src/ad21efdb8f00/README

Dazu gibt es die Infos im Neo-Wiki:

→ http://wiki.neo-layout.org/wiki/Neo3/Optimierungskriterien
→ http://wiki.neo-layout.org/wiki/Neo3

Liebe Grüße,
Arne

signature.asc
Description: This is a digitally signed message part.


Re: [Neo] aktueller Entwicklungsstand

2011-04-17 Diskussionsfäden Michael Gattinger

Am 13.03.2011 17:59, schrieb Arne Babenhauserheide:

Aktuell würde ich die Parameter nun als gut einstufen. Was jetzt v.a. noch
fehlt ist ein passender Korpus: Wie soll die Verteilung auf Deutsch und
Englisch sein, und welche Texte nutzen wir? Sollen noch andere Sprachen rein
(Stichwort: Europäisches Layout)? Da brauche ich definitiv Hilfe - kann (und
will) ich nicht alleine entscheiden und kann es auch alleine nicht gut genug
stemmen, denke ich. Aufgabe: Freie Texte zusammenstellen, zusammen so 100-300
MiB repräsentativen Text, gerne auch mehr. Das geht vielleicht Michael
Gattinger an.


Dazu lese man
Re: [Neo] Wikipedia-Korpus selbstgemacht vom 17.04.2011 23:48



Re: [Neo] symmetrische Bigramme

2011-04-17 Diskussionsfäden Arne Babenhauserheide
On Saturday 16 April 2011 15:42:14 Karl wrote:
 Mir ist es lieber, den Optimierer möglichst wenig einzuschränken. Mit
 Einschränkungen solcher Art, wird da nicht der Sinn der computergestützten
 Optimierung untergraben?
 Für besser halte ich nach wie vor, vom Optimierer Vorschläge zu bekommen,
 die von Menschen getestet werden - ohne den Optimierer daraufhin
 einzuschränken.

Das ist, was ich bisher mache, und ich schließe mich da gerne einer
Gruppenentscheidung an. Genauso bei Verwechslungen (v.a. wenn sich
herausstellen sollte, dass alle Leute andere Tasten verwechseln).

Für mich sind Verwechslungen relevant, aber ich will die bestmögliche
Tastaturbelegung für alle finden, nicht nur für mich. Wenn Verwechslungen aber
ein häufiges Problem sein sollten, dann gehören sie meiner Meinung nach zur
Optimierung.

Ob wir die aber den Optimierer machen lassen, oder sie später bei der Auswahl
und der Feinanpassung berücksichtigen, ist für mich nicht so wichtig.

Und jede Einschränkung, die der Optimierer nicht braucht, ist eine, die ich
nicht programmieren muss :)

Liebe Grüße,
Arne

signature.asc
Description: This is a digitally signed message part.


Re: [Neo] Optimierer TODO: Was noch fehlt

2011-04-17 Diskussionsfäden Martin Roppelt
Karl schrieb:
 In letzter Zeit habe ich mir den Wikipedia-XML-Dump öfter und genauer 
 angesehen.
 Den so sauber geputzt zu bekommen, wie ich es für notwendig erachte, halte ich
 jetzt für noch schwieriger, als wonach es auf den ersten Blick ausschaut.
 (@Florian: Kannst Du mal die Skripte vorstellen - egal auf welchem Stand -, 
 mit
 denen Du das Putzen angegangen bist. Das könnte enorm weiter helfen
 (Brett_vorm_Kopf_hab).)
 Manche Markups kommen verschachtelt vor, manche sogar fehlerhaft, was für
 Reguläre Ausdrücke grundsätzlich schwierig ist.

Habt ihr schon mal in MediaWikis eigene regexe geguckt? Da müsste sich 
doch viel abkupfern lassen (auch wenn manches wohl in ein paar 
Extensions versteckt ist).

Gruß,
Martin



Re: [Neo] aktueller Entwicklungsstand

2011-04-17 Diskussionsfäden Michael Gattinger

Am 14.03.2011 11:48, schrieb Arne Babenhauserheide:

Da brauche ich definitiv Hilfe - kann (und
will) ich nicht alleine entscheiden und kann es auch alleine nicht gut
genug stemmen, denke ich. Aufgabe: Freie Texte zusammenstellen,
zusammen so 100-300 MiB repräsentativen Text, gerne auch mehr.

Wieviel Aufwand ist es eine Belegung gegen einen neuen Korpus zu testen?

Mit vorgenerierten nGrammen (1gramme.txt, 2gramme.txt, 3gramme.txt) braucht es
nur ein paar Sekunden.

Welche Syntax erfordern diese Typisierten Dateien?
Oder anders: Welche Infos stehen da drin?
Beispiel?

en 17,5%
er 12,3%
ar 5,7%

???

(!Fantasiewerte)



Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-17 Diskussionsfäden Arne Babenhauserheide
On Sunday 17 April 2011 23:48:26 Michael Gattinger wrote:
 Derzeit haben mein Bruder und ich Urlaub, könnten das Programm also
 sofern interesse besteht in 2 Wochen fertigstellen.

Wow, das klingt klasse!

Sowohl die Features als auch, dass ihr es bald fertig haben könnt!

- Arne

signature.asc
Description: This is a digitally signed message part.


Re: [Neo] aktueller Entwicklungsstand

2011-04-17 Diskussionsfäden Michael Gattinger

Am 14.03.2011 18:24, schrieb Marco Antoni:

Dem möchte ich mich uneingeschränkt anschließen. [...][...][...]

Auch bei der Frage, welche Sprache dann einbezogen werden soll, kann 
ich mir keine Einigkeit vorstellen. Klar ist Englisch die Weltsprache. 
Aber Französisch-, Spanisch- und Italienischsprecher gibt es auch 
viele und wie lange Englisch diese Position behalten wird, ist auch 
unklar. Der kleinste gemeinsame Nenner ist bei Neo die deutsche 
Sprache und auf diesen sollten wir uns konzentrieren.


Ich würde, wie schon mehrfach vorgeschlagen, _keinen_ 
Mehrsprachen-Mischkorpus erstellen. Stattdessen sollte der 
Algorithmus auf einen homogenen Korpus (Deutsch) losgelassen werden, 
und unter den besten Layouts wählt man dann dasjenige aus, das 
weitere Kriterien erfüllt, beispielsweise gute Werte mit anderen 
Korpora (Englisch, …) oder einfache Erlernbarkeit.


– Mœsi
Die Frage ist hier nicht ob Englisch die Weltsprache ist oder eine 
andere, sondern: Wieviele Deutsche schreiben Englisch / Italienisch / 
Französisch? ... Statt für die deutsche Sprache  Tastatatur könnte 
man auch sagen für die deutschen  Tastatur. Da Englisch in 
ziemlich vielen Schulen als erste Fremdsprache gelehrt wird und andere 
Sprachen eher weniger als erste Fremdsprache, ist der Anteil der 
Englischschreibenden denke ich deutlich höher als Französischschreibende.


Mit freundlichen Grüßen

Michael Gattinger



Re: [Neo] Kommentar zur Repräsentativität von Texten

2011-04-17 Diskussionsfäden Arne Babenhauserheide
On Sunday 17 April 2011 23:48:28 Michael Gattinger wrote:
 Fazit: Wir können verschiedene Statistiken machen zu verschiedenen
 Textgattungen verschiedener Sprachen und diese dann im nachhinein so
 verrechnen wie wir möchten.

Würde ich so unterschreiben.

Dann haben wir eine Grundlage, mit der wir gemeinsam über den effektiven
endgültigen Korpus entscheiden können (also über die nGramme, die am Ende der
Optimierer bekommt).

Liebe Grüße,
Arne
--
Konstruktive Kritik:

- http://draketo.de/licht/krude-ideen/konstruktive-kritik



signature.asc
Description: This is a digitally signed message part.


Re: [Neo] Alternative Layout-Berechnung

2011-04-17 Diskussionsfäden Michael Gattinger

Da dir bisher keiner geantwortet hat mache ich das mal gerne:
Ich hab mir deinen Text mal bis zur hälfte durchgelesen und habs 
natürlich nicht auf anhieb verstanden. Aber mal anders gefragt: Du 
meintest du hättest da schon ein ähnliches Programm vorliegen. a) Welche 
Programmiersprache b) hast du es mal modifiziert c) kann man etwas 
betrachten?


Kannst dich ja sonst mal bei mir melden.

Am 19.03.2011 18:49, schrieb Marco Antoni:

Hi Leute,

wie schon im Chat vorgestellt, habe ich mir eine Methode zur 
Berechnung der besten Layouts zu gegebenen Kriterien und Gewichten als 
Alternative zu Arnes genetischem Algorithmus überlegt.
Eine Zusammenfassung findet ihr unter 
http://dl.dropbox.com/u/837165/neo/layoutberechnung und im Chat habe 
ich folgendes dazu geschrieben:


Die größte Schwierigkeit sehe ich darin, die Funktion und die Matrix 
als Funktion der Konstanten zu bestimmen. Zur Lösung der numerischen 
Matrix habe ich vor einiger Zeit ein Programm geschrieben, das ein 
ähnliches Problem ungefähr wie im ersten vorgeschlagenen Algorithmus 
löst und nur wenig modifiziert werden muss (aber sicher stark 
optimiert werden kann). Dieses Programm spuckt die ersten Lösungen 
einer 1000*1000-Matrix nach wenigen Sekunden aus. Die perfekte Lösung 
ist natürlich nie garantiert dabei, aber durch die Konstruktion kommen 
gleich zu Beginn sehr gute Lösungen raus und nach kurzer Zeit 
(Größenordnung wenige Minuten) ist die sicher beste gefunden.
Das Problem hier ist einerseits rechenaufwendiger (zumindest mit 
meinen Algorithmen durch die andauernde Normierung), andererseits nur 
32*32 groß statt 1000*1000 … imho ist das machbar :-)


Diskussion und Realisierungshilfe (wie löst man ein Gleichungssystem 
mit 1000 Gleichungen? Software?) erwünscht.


Grüße, Marco8







Re: [Neo] aktueller Entwicklungsstand

2011-04-17 Diskussionsfäden Arne Babenhauserheide
Hi Michael,

On Monday 18 April 2011 02:10:16 Michael Gattinger wrote:
 Am 14.03.2011 11:48, schrieb Arne Babenhauserheide:
 Welche Syntax erfordern diese Typisierten Dateien?
 Oder anders: Welche Infos stehen da drin?
 Beispiel?

 en 17,5%
 er 12,3%
 ar 5,7%

Da stehen einfach Häufigkeiten drin:

12345 en
  4538 de
  12 ∃ℝ

Die werden dann auch direkt als Zahlen und Strings ausgewertet:

num, bi = zeile.lstrip().split()


Also

beliebig viele Leerzeichenzahlleerzeichenngram

Liebe Grüße,
Arne

signature.asc
Description: This is a digitally signed message part.


Re: [Neo] symmetrische Bigramme

2011-04-17 Diskussionsfäden Michael Gattinger

Am 24.03.2011 01:10, schrieb Pascal Hauck:

Mein Tippgefühl sagt mir, dass es eine große Stärke von Neo ist, „en“, „ch“
(und sogar „ti“) auf gespiegelten Positionen zu haben, also symmetrische
Bewegungen mit beiden Händen auszuführen. Dieses Merkmal ist leider bei
anderen Entwicklungsstufen nicht beachtet worden.

Es wäre interessant, zu sehen, welchen Einfluss dieses Symmetrie‑Kriterium auf
den Optimierer hätte.

Ich finde diese Überlegung interessant und bitte sie im Hinterkopf zu 
halten und mal zu Untersuchen.




Re: [Neo] Alternative Layout-Berechnung

2011-04-17 Diskussionsfäden Arne Babenhauserheide
Ach verdammt, stimmt… ich sollte immer eine explizite Todo-Liste führen…

On Monday 18 April 2011 02:45:31 Michael Gattinger wrote:
 Da dir bisher keiner geantwortet hat mache ich das mal gerne:
 Am 19.03.2011 18:49, schrieb Marco Antoni:
  Diskussion und Realisierungshilfe (wie löst man ein Gleichungssystem
  mit 1000 Gleichungen? Software?) erwünscht.

Die Frage, die ich eigentlich schon im März stellen wollte: Geht das den
Gradienten nach (danach klang der Text für mich), oder prüft es wirklich jede
Möglichkeit (wenn auch erst nur ungenau)?

Liebe Grüße,
Arne

signature.asc
Description: This is a digitally signed message part.


Re: [Neo] symmetrische Bigramme

2011-04-17 Diskussionsfäden Michael Gattinger

Am 16.04.2011 01:34, schrieb Arne Babenhauserheide:

Mein Fazit:

* Kleine Verschiebungen gegenüber dem Vorlayout tun weh. Lieber ein harter 
Bruch.
Das mag sachlich stimmen, darf im kontext einer deutsch optimierten 
Tastatur aber keinesfalls als Bedingung / Kosten definiert werden, 
sonst müsste die Tastatur deutsch optimierte Tastatur für Leute mir 
Vorerfahrung im 10 Fingertippen heißen. Es muss immer von einem Kind 
ausgegangen werden, welches keine Vorerfahrung hat.




Re: [Neo] Optimierer TODO: Was noch fehlt

2011-04-17 Diskussionsfäden Florian Janßen
Martin Roppelt schrieb am 18.04.2011 um 01:36 Uhr:

 Habt ihr schon mal in MediaWikis eigene regexe geguckt? Da müsste sich 
 doch viel abkupfern lassen.

Ja, das war der einfache Teil und machte auch kaum Probleme. Dann gibt
es noch HTML – vorallem auf den Seiten, die keine echten Wikiarikel
sind. Danach sieht der Text wie die Druckversion eines Artikels aus.

Aber danach gibt es aber vieles was typisch für Wikipedia (nicht
unbedingt für Wikimedia an sich) ist, aber nichts in einem normalen Text
zu suchen hat. Und das macht die meiste Arbeit.

Gruß Florian




signature.asc
Description: OpenPGP digital signature


Re: [Neo] Ähnliche Buchstaben sollten nicht auf ähnlichen Positionen sein

2011-04-17 Diskussionsfäden Navid Zamani

Am 17.04.2011 23:01, schrieb Arne Babenhauserheide:

Ich denke, wir sollten sammeln, welche Buchstaben ähnlich sind
(Verwechslungsgefahr) und daher nicht auf ähnlichen Positionen liegen sollten.
Oh bitte. Schon wieder das Verblödungs-Pseudoargument. Wenn das 
durchgeht, ist NEO für mich gestorben, und wird vorher geforkt.
Wenn manche Leute zu blöd sind, Buchstaben auseinanderzuhalten, dann 
sollten sie vielleicht anfangen zu lernen, *ihr Hirn zu benutzen*.

Ach nee, um auf die Idee zu kommen, müsste man ja erst… Blöder Teufelskreis.


* rl (Japaner)

Ok, jetzt ist absolut klar, dass du trollst.

http://en.wikipedia.org/wiki/Dunning%E2%80%93Kruger_effect is a bitch. :/




Re: [Neo] Ähnliche Buchstaben sollten nicht auf ähnlichen Positionen sein

2011-04-17 Diskussionsfäden Florian Janßen
°)))o


Oh nö, muss man jetzt auch dieser Liste anfangen Filter zu füllen?



Re: [Neo] Optimierer TODO: Was noch fehlt

2011-04-17 Diskussionsfäden Florian Janßen
Karl schrieb am 17.04.2011 um 19:48 Uhr:
 Florian Janßen writes:
 Pascal Hauck schrieb am 17.04.2011 um 19:11 Uhr:

 Ein schönes Beispiel dafür, wie wichtig der Handwechsel ist.
 Bei „allse“ statt „alles“ hast du unbewusst einen – hier nicht 
 erforderlichen
 – Handwechsel von „l“ zu „s“ gemacht. Je mehr Handwechsel also beim tippen 
 aufreten, desto weniger solche Fehler werden entstehen.

 Merkwürdige Logik.
 
 Pascals Begründung empfinde ich als gut passend.

Ich finde einen Fehler durch einen Handwechsel als Beleg für die
Wichtigkeit von möglichst vielen Handwechseln herzunehmen nicht
einleuchtend.

Bei Neo passieren mir die meisetn¹ Fehler durch Handwechsel die nicht
sein sollten. Dabei verdrehe ich die Buchstaben IMHO sind das
Timingfehler (die andere Hand zündet zu früh) und müssten IMHO bei einem
Layout mit wenig Handwechseln seltener werden.

Gruß Florian

¹ In dieser Mail mal stehen gelassen.



signature.asc
Description: OpenPGP digital signature


Re: [Neo] Optimierer TODO: Was noch fehlt

2011-04-17 Diskussionsfäden Navid Zamani

Am 17.04.2011 23:16, schrieb Arne Babenhauserheide:

Es geht nicht um Dummheit, sondern darum, dass es die Lernbarkeit
beeinträchtigt. Und da die Geschwindigkeit im Hirn anfängt (Musiker
können auch 16-tel spielen:900 Anschläge die Minute) ist die
Lernbarkeit für hohe Geschwindigkeit extrem wichtig.

Das gibt jetzt irgendwie gar keinen Sinn. Lerngeschwindigkeit ist nicht
Benutzungsgeschwindigkeit.
Dein Argument als Autobauer wäre praktisch, dass du in deinen
Formel-1-Wagen lieber ein Vollautomatikgetriebe einbauen willst, als
eine manuelle Gangschaltung / Tiptronic, weil man länge brauchen würde,
um die Gangschaltung zu lernen. Und irgendwie machst du den Schluss,
dass die Lerndauer irgendwas damit zu tun hätte, wer als erster durchs
Ziel fährt. (PROTIP: Der mit der Tiptronic gewinnt. Der mit der
Vollautomatik wird letzter. Und Lernzeit wird nicht zur Rundenzeit
gerechnet.)
Du gibst also der Lernunfähigkeit der Nutzer (=Dummheit) auf Kosten der
Schreibgeschwindigkeit nach.


Ich habe bei Neo 2 ständig p und b verwechselt. Wenn du mich als dumm
bezeichnen willst, ist das dein gutes Recht. Aber dass du denkst,
dass ich meine eigenen Erfahrungen ignorieren würde, gerade wo auch
andere sie bestätigt haben, halte ich für realitätsfern.

Ich weiss nicht warum du p und b verwechselst. Ich tue es nicht. Dafür
tippe ich das t immer mit dem Mittelfinger statt mit dem Ringfinger. Da
bin ich also dümmer als du.
Das ist aber nicht der Punkt. Der Punkt ist, dass wir alle verschieden
sind, und wir weder alle in deiner Welt leben, noch in meiner. Und
deswegen kann und darf man nicht allen die gleiche Standardpassform
aufzwingen. Egal ob diese auf meinen oder deinen *persönlichen*
Erfahrungen und Ansichten basiert.

Aber das ist ein *Computer*. Nur leider sind die meisten Menschen durch
Windows, KDE, Gnome und OS X nie richtig aufgeblüht, und benutzen
Computer noch immer wie statische unveränderliche und unprogrammierbare
Haushaltsgeräte. Zwar modulare, aber trotzdem wie Haushaltsgeräte.
Dass es ein Computer ist, erlaubt uns aber die Automatisierung und
Flussteuerung. NEO muss also kein Array sein, sondern kann eine
*Funktion* sein, die mithilfe individueller Parameter ein individuelles
Array ausspuckt.

Denn, und das ist warum ich das hier alles schreibe, bist du auch
glücklich, *aber auch alle anderen*!
Anders gesagt: Wer hier Kompromisse eingeht, hat Computer und Funktionen
nicht verstanden.
Du kannst nicht nur, sondern ich *möchte*, dass du deinen
Verwechselungsschutz bekommst. :)
Aber ich *erwarte* dann auch, dass ich keine Geschwindigkeitskompromisse
deswegen bekomme.
Und dank der Magie der Funktion, können wir *beides* haben. Sogar wenn
es sich widerspricht. :)

Da stimmst du mir doch auch zu: Das Beste für alle.
Mit einer einzigen Lösung ist das kaum mehr zu steigern. Man kann nur
mehr und mehr Kompromisse eingehen. Und damit wird es „OK“ für alle,
aber „gut“ für niemanden.
Mit obiger Lösung kann man es bis zur Perfektion steigern wenn man
möchte. Für alle.
Und das ist doch toll!


Äh, nö. Wer schnell tippen können will, kommt mit der Optimierung mit
weniger Aufwand zu höheren Geschwindigkeiten, hat also mehr Zeit,
um noch schneller zu werden.

Er wird aber niemals die gleiche Höchstgeschwindigkeit erreichen wie
jemand ohne die „Optimierung“ (=Vollautomatikganschaltung).



In erster Linie gibt es mal mehr Leute, die es nutzen. Die Kurve
rutscht nicht nach unten, sondern wird einfach größer, so dass
der untere Teil stärker gesehen wird - weil der untere Teil halt auch
größer wird.

Falsch. Die Kurve wird unten größen, und oben kleiner. Weil das Ding für
das obere Ende der Intelligenzkurve unbrauchbar wird. Es bremst einen zu
sehr aus die ganzen Krücken links und rechts zu haben. Oder wie bei
Windows: „Dieser Ordner ist für sie gesperrt, da wir entschieden haben,
dass sie zu dumm dafür sind.“ und „Dateiendungen? Dafür sind sie auch zu
dumm!“. Und dann häng ich da, und muss erst rumkonfigurieren, bevor ich
sowas grundlegenden machen kann, wie die Endung zu ändern. Und *selbst
dann* meckert Windows noch mit einem Warndialog, dass sich dadurch der
Dateityp nicht ändern würde. KEIN SCHEISS?? WIRKLICH?? Oh Gott, es ist
eine Katastrophe. Man wird wie ein Vollidiot behandelt.
Das geht mir grade jetzt mit KDE auch so, und mit Gnome sowieso. Ich
werde langsamer und langsamer, weil die „Vereinfachungen“ einbauen, die
mich behindern, oder vieles schlichtweg unmöglich machen. Ohne Terminal
wäre Gnome 3 für mich unbenutzbar. (Nutze noch KDE, entwickle aber schon
an einem Ersatz.)

Jetzt infiziert die gleiche Seuche auch NEO. Und völlig Zwecklos. Da wir
ja alle Vereinfachungsstufen *gleichzeitig* haben können. VIM und
Notepad in einem. Alles *kann*, nichts *muss*. Und alle sind glücklich.


Klar, kann jeder. Wir haben einen Xmodmap-Generator (der auch grobdie
höheren Ebenen anpasst: 5 und 6) und einen Optimierer, der passende
Daten ausspuckt. Das geht also schon jetzt, und man muss nichts
mehr ändern.

Das ist eine dumme 

Re: [Neo] Ähnliche Buchstaben sollten nicht auf ähnlichen Positionen sein

2011-04-17 Diskussionsfäden Navid Zamani

Am 18.04.2011 07:01, schrieb Florian Janßen:

°)))o
Oh nö, muss man jetzt auch dieser Liste anfangen Filter zu füllen?


Puh. Das letzte Mal wo ich jemanden diese antisoziale Geste der Ignoranz 
benutzen sah, kam sie von einem BOFH der so übel war, dass sich in Club 
für seine Absetzung bildete. Vor zwölf Jahren.

Ich dachte, das Netz wäre mittlerweile darüber hinausgewachsen.

Dir ist bewusst dass du dich mit obigem nur als jemand hinstellst, der 
sich nicht mal die Mühe macht, zu verstehen um was es geht, nichts 
beizutragen hat, aber andere trotzdem gerne beleidigt?


Hut ab!
   __
 |\.-``  )
 |---``\  _.'
  .-`'---``_.'
 (__...--``Große charakterliche Leistung.





Re: [Neo] Ähnliche Buchstaben sollten nicht auf ähnlichen Positionen sein

2011-04-17 Diskussionsfäden Peter Eberhard

Ok, jetzt ist absolut klar, dass du trollst.



Mann, ich kann intolerante Leute nicht ab, die denken ihre Weltsicht
wäre global gültig. Wikipedia-Admin-Style.


Dir ist bewusst dass du dich mit obigem nur als jemand hinstellst, der  
sich nicht mal die Mühe macht, zu verstehen um was es geht, nichts  
beizutragen hat, aber andere trotzdem gerne beleidigt?


Die Schlusssätze deiner letzten drei Mails kann man 1:1 auf dich beziehen.  
Und alle drei sind inakzeptabel. Der Plonk von Florian hätte dich darüber  
eigentlich zum Nachdenken bringen sollen, statt noch so einen ausfall zu  
produzieren.


Wenn du deine Argumentationen weiterhin selbst mit Beleidigungen  
garnierst, kannst du nicht erwarten, dass wir das einfach übergehen und  
die Argumente noch unvoreingenommen diskutieren. Und ich glaube, wir haben  
durchaus verstanden, um was es dir geht. Das ist nicht der Punkt


Bei rein schriftlicher Kommunikation kann man meistens den Tonfall, in dem  
der Schreibende das Geschriebene verstanden haben will, nicht so ganz  
ausmachen. Aber bei deinen letzten Beiträgen kann ich nur Herablassung und  
Jähzorn erkennen. Und dabei kann ich nichtmal nachvollziehen, warum dieses  
Detail so ungeheuer wichtig sein soll, dass deswegen „Neo stirbt“ oder  
irgendwas.


Arne ist nun wirklich der letzte, dem du Verbohrtheit und Besserwisserei  
vorwerfen kannst. Er wurde schonmal so mies angegriffen, hat sich aber  
stets nur vorbildlich geäußert. Bevor das hier also so weitergeht, komm  
erstmal zur Ruhe und denke nach, bevor du auf „senden“ klickst.


Gruß,
Peter

P.S. Ich hoffe, ich hab hiermit jetzt den Flamewar nicht erst richtig  
angezettelt.




Re: [Neo] Optimierer TODO: Was noch fehlt

2011-04-17 Diskussionsfäden Peter Eberhard

Am 18.04.2011, 07:09 Uhr, schrieb Florian Janßen please.m...@gmx.de:


Bei Neo passieren mir die meisetn¹ Fehler durch Handwechsel die nicht
sein sollten. Dabei verdrehe ich die Buchstaben IMHO sind das
Timingfehler (die andere Hand zündet zu früh) und müssten IMHO bei einem
Layout mit wenig Handwechseln seltener werden.


Auch dies ist eine Bestätigung für Pascals Argument. Du hast einen  
Handwechsel von s auf e vollzogen, obwohl du zwischendurch noch das t  
tippen musstest, ohne Handwechsel. Deine linke Hand war schon für das e  
bereit, während die rechte das t noch nicht getippt hatte.


Der Fehler kommt nicht durch den Handwechsel zu Stande, sondern gerade  
durch _fehlenden_ Handwechsel. Lägen s und t auf verschiedenen Händen,  
wäre dir der gleiche Fehler nicht passiert.


Gruß,
Peter