Entschuldigung, ich hatte das Thema nur kurz angerissen um erste Reaktionen abzuwarten. Da anscheinend Interesse (welcher Art auch immer) besteht bin ich gerne dazu bereit näher ins Detail zu gehen:

***Gründe für das Programmieren***
Ich hatte den Ticket 250 eröffnet und darauf keine Antwort erhalten.
http://wiki.neo-layout.org/ticket/250
http://lists.neo-layout.org/pipermail/diskussion/2011-February/018339.html
Deswegen ging ich von desinteresse aus und fing an ein (bereits vor Jahren geschriebenes) Wörter-Zahl-Programm meines Bruder umzuschreiben, sodass es Wörter zählt und Wörter für Lektionen ausgibt, je nach Lernreihenfolge der Buchstaben, siehe weiteres Ticket 250.
Damals geplant:

(enit)(ar)(ud)(os)(ch)(lg)(Großschreibung)(pmPM)(wkWK)(zbZB)(vfVF)(ßj?J)(yüYÜ)(öäÖÄ)(xqXQ)

Heute veraltet.

Nachdem ich zu Anfang wild irgendwoher Texte kopierte merkte ich irgendwann, dass das so nix wird und suchte nach größeren Quellen. So fand ich mit dem "Project-Gutenberg" http://www.gutenberg.org/wiki/Main_Page eine Quelle von UTF8 Büchern, leider, wie ich feststellte meist von vor 1930. Zusätzlich fand ich nach endloser sucherrei eine 40GB HTML Version von Wikipedia (Artikel, Diskussionen, Benutzerseiten, Bilder etc.). Wegen der Wikipedia-Quelle wollte ich mein Programm also um HTML & Entitifilter sowie Wikipedia-Spezifische Filter ([Bearbeiten], Signaturen) erweitern.

Nach einem Gespräch mit Arne Babenh* stellte ich fest, dass er auf der Suche nach neuen Korpora ist, möglichst vielfältig. Deswegen wollte ich dann ein allgemeines Programm entwickeln, dass man immer wieder verwenden kann (Mit GUI).

***Programmspezifikation kurz und knapp***
Möglichkeit zum
a) UTF-8-kompatiblem arbeiten
b) modularen bedienen
c) speichern des (der) Ergebnisse(s) nach jedem der optionalen Zwischenschritte:
1) filtern von HTML in Text
2) übersetzen von Entities (  etc)  in UTF-8 Zeichen
3) filtern von Wiki-Spezifischen besonderheiten {[Bearbeiten] , -- Nickname HH:MM, DD. MMM. JJJJ (CEST)}
4.1) zählen von n-Grammen (Ausgabe absolut, prozentual, etc.)
4.2) zählen von Wörtern
5.1) mischen von Ergebnissen mehrer n-Gramm-Zählungen; näheres siehe unten
5.2) ausgeben von Wörtern in Lernreihenfolge; näheres siehe unten

***Erklärungen zur Programmspezifikation***
Modularer Aufbau:
Der Nutzer kann bei jedem Programmlauf entscheiden welche Funktionen er nutzen möchte und welche nicht. Z.b. kann er (wenn er bereits textbasierte Vorlagen hat) das HTML-, Entitie- und Wikipedia-Filtern (Nummer 1 bis 3) rauslassen und direkt mit dem "zählen von n-Grammen" anfangen und auch direkt danach aufhören.


--------------------------------------------------------------------------------------------------------------
##### ***** KOMMENTAR ZUR REPRÄSENTATIVITÄT VON TEXTEN ***** #####

Siehe E-Mail "Kommentar zur Repräsentativität von Texten" vom 17.04.2011 um 23:48
---------------------------------------------------------------------------------------------------------------

5.1) und 4.1):
Wir haben nach 4.1) die n-Gramm-Statistik prozentual vorliegen. Nun machen wir dies mit verschiedenen Textgattungen ({Lexika, Diskussion, E-Mails, ...}) verschiedener Sprachen ({Deutschen, Englischen, Programmiersprachen, ...}). Dann können wir diese Prozentwerte nach belieben miteinander verrechnen. So könnten wir sagen: Es wird 80% deutsch geschrieben und 20% englisch. Oder komplizierter (nur beispielhaft) 10% deutsche Lexika, 20% deutsche E-Mails, 30% deutsche Diskussionen, 10% Programmierung, 5% englische Lexika, 10% englische E-Mails, 15% englische Diskussionen; Summe: 100%.

5.2) und 4.2)
Wenn wir Wörter nach deren Häufigkeit sortiert vorliegen haben können wir zu einem beliebigen Tastaturlayout uns eine Lernreihenfolge überlegen, in welcher wir die Buchstaben lernen wollen.
Z.b. (enit)(ar)(ud)(os)(ch)(lg) usw.
Nun geben in Liste eins Wörter aus, die mit {e,n,i,t} geschrieben werden können. Dann geben wir eine Liste zwei mit Wörtern aus, die mit {e,n,i,t,a,r} geschrieben werden könne, wobei "a" oder "r" mindestens einmal vorkommen müssen.
usw. usf.
Daraus kann man dann Lernlektionen machen.


Derzeit haben mein Bruder und ich Urlaub, könnten das Programm also sofern interesse besteht in 2 Wochen fertigstellen. Weitere Vorschläge zu Dingen, die das Programm können soll könnt ihr natürlich auch gerne liefern.

Mit freundlichen Grüßen

Michael Gattinger



Am 17.04.2011 19:06, schrieb Pascal Hauck:
Am Sonntag, 17. April 2011, 16:15:47 schrieb Michael Gattinger:
Ich bin seit 2 Monaten dabei mir ein Programm zu schreiben
Ich bin ungern derjenige, der eine engagierte Arbeit möglicherweise hinfällig
macht. Dennoch wundere ich mich darüber, dass so leichtfertig und
unhinterfragt eine Enzyklopädie als sinnvoller Korpus erachtet wird.

Neo2 ist bereits eine gute Tastatur, bei einer zukünftigen Neo3 darf man
durchaus von „hochoptimiert“ sprechen. Eine so weitgehende Optimierung setzt
natürlich voraus, dass sämtliche Zwischenschritte – insbesondere die Wahl des
Korpus – den gleichen hohen Ansprüchen genügen.
Genau dies sehe ich bei der Wikipedia für unsere Zwecke nicht geben!

Natürlich ist die umfangreiche, freie und leicht zugängliche Textmenge
verführerisch – jedoch deckt sich der lexikalische Schreibstil nicht mit dem
eines gängigen Anwenders.

Das vermutlich einfachste und zugleich einsichtigest Beispiel ist das Wort
„ich“. Wärend fast keine E‑Mail ohne dieses Wort auskommt, hat ein
Stichprobentest in nur einem von 10 Wikipedia‑Artikeln einen Treffer egeben –
und zwar in einem Zitat. Gleiches gilt für andere Wörter: du, wir, uns, mir,
mich, sich, …

Da ein Großteil der am PC geschriebenen Texte zur Kommunikation gehören
(E‑Mail, Chat, IRC, Twitter, soziale Netzwerke, …) sehe ich die einen
enzyklopädischen Korpus kritisch.
Jede darauf aufbauende Optimierung ist zumindest fraglich und kann nicht
zweifelsfrei behaupten, die selbst gesteckten hohen Ansprüche zu erfüllen.


Skeptische Grüße,
Pascal




Antwort per Email an