[Neo] Textkörper für Neo3

Karl Köckemann Tue, 24 Nov 2009 14:47:52 -0800

In diesem Beitrag seien Gedanken zum Aufbau eines oder mehrer
einheitlicher nicht kleiner Textkörper für statistische Analysen zur
Entwicklung von Neo3 vorgetragen.


Bewusst vermeide ich den in der Korpuslinguistik und der
Computerlinguistik üblichen Begriff Textkorpus.
Für die Entwicklung einer Tastenbelegung dürften erheblich andere
Anforderungen an einen Textkörper gestellt werden. So können für
linguistische Zwecke bereinigte Textkorpora sich für statistische
Analysen zur Tastenbelegung als unbrauchbar herausstellen. Gute
Textkorpora für den deutschen Sprachraum kosten viel Geld. Das
Erstellen eines eigenen Textkörpers für Neo3 erscheint mir sinnvoll,
zumal wir dann auch wissen, worauf genau er basiert und welche
Kriterien er erfüllt.

Interessant ist die Häufigkeit der Tastenbetätigung(en) zum Erzeugen
jedes Zeichens, wofür wiederum die Zeichenhäufigkeit möglichst aller
Zeichen benötigt wird (zumindest die der ersten beiden Ebenen; auch von
mittels Toten Tasten erzeugten Zeichen). Die öffentlich auffindbaren
Daten erweisen sich als mager, da sie zu viele Zeichen der ersten
beiden Ebenen vernachlässigen. Beispiele:
ß, Interpunktionszeichen oder Leerzeichen fehlen oft in Angaben zur
Buchstabenhäufigkeit. Die Häufigkeit des Leerzeichens übersteigt
tatsächlich die des häufigsten Buchstabens. (Einmal sah ich eine
Tastenbelegung, bei der die Leertaste als Shift diente, wobei das
Leerzeichen auf der Grundreihe stand.)
In alltäglichen Texten kommen z. B. Tabulatorzeichen und
Zeilenvorschübe vor, zu deren Häufigkeit ich nichts gefunden habe. 
Buchstabenhäufigkeitsangaben unterscheiden bisweilen nicht zwischen
Groß- und Kleinbuchstaben.
Bei Bi- und Trigrammen werden Wortanfänge, Wortendungen,
Interpunktionszeichen, Leerzeichen, Zeilenvorschübe und
Seitenumbruchzeichen meist nicht hinreichend einbezogen.

Aus einem eigenen hinreichend großen Textkörper müssten sich die
erwünschten Daten hinreichend zufriedenstellend hervorbringen lassen.

Ein lehrreiches Beispiel der geschickten Anwendung von Textkörpern:
http://www.public.iastate.edu/~crb002/eprints.html
"Optimizing stylus keyboard layouts with a genetic algorithm:
customization and internatinalization"

Der im Aufsatz beschriebene Verweis zu den Quelltexten lautet jetzt:
http://www.public.iastate.edu/~crb002/ie574/code/


Bei etlichen Funktionen, z. B. Ausschneiden, Kopieren, Einfügen,
Löschen, Cursorsteuerung, wird die Häufigkeit des Tastengebrauchs
schwierig erfassbar sein.

Nebenbei: Klausler ging so weit, mittels eines Progrämmchens zusätzlich
die Zeiten zu erfassen, die jeder Finger zum Erreichen bestimmter Tasten
benötigt. Leider hat er von keinem der angekündigten Teilnehmer die
entstandenen Dateien erhalten. Ein Vergleich solcher Dateien mit
subjektiv vergebenen Strafpunkten für die einzelnen Tasten könnte
aufschlussreiche Erkenntnisse liefern.


Soeben wollte ich mit dem Aufbau eines Textkörpers mit Texten von Franz
Kafka (aus dem Projekt Gutenberg) beginnen, schon kommen die ersten
Fragen auf.

Als Ziel hatte ich mir vorgestellt, einen (oder einige) nicht kleinen
Textkörper für Neo3 erstellt zu bekommen, der - einmal aufbereitet
- bald nicht mehr verändert wird und einheitlich von allen verwendet
werden kann, die statistische Analysen vornehmen möchten.

Oftmals werden Inhaltsverzeichnisse heute nicht mehr von Hand
eingegeben, sondern vom Textverarbeitungsprogramm automatisch erstellt.
Sollen Inhaltsverzeichnisse in den Textkörper aufgenommen werden?

Da die einzelnen Kapitel mit einem Seitenumbruchzeichen enden müssten,
die Seiten jedoch von Hand ohne dieses Zeichen in den Texteditor kopiert
werden, erhebt sich die Frage, ob das Seitenumbruchzeichen von Hand
eingefügt werden soll, wo es eigentlich sein müsste.

Sogleich fällt die veraltete Verwendung bestimmter Zeichen auf, und
erst recht die veraltete Rechtschreibung.
Da in Zukunft immer weniger in alter Rechtschreibung eingetippt werden
wird:
Soll der Textkörper für Neo3 auf der neuen Rechtschreibung basieren?
Falls ja, müsste der Anteil der Texte in alter Rechtschreibung ziemlich
niedrig gehalten werden.
Oder sollte mittels Programme die alte Rechtschreibung in neue
übertragen werden?


Der Aufbau eines einheitlichen nicht kleinen Textkörpers, soll er nach
klaren Kriterien erfolgen?

Einige wurden in der Mailingliste schon öfter genannt, z. B. jeweils
eine bestimmte Anzahl von Texten aus verschiedenen Bereichen.

Von den gigantischen Textkorpora der Linguisten können etliche
Kriterien zur Aufbereitung für Neo3-Textkörper übernommen werden, z. B.
aus welchen Gebieten Texte bis zu welcher Größe aufgenommen werden
sollen.


Für jetzt soll es genügen ...

Mit netten Grüßen
Karl



P. S.: Im Verzeichnis Leipzig stehen Listen mit den häufigsten Bi- und
Trigrammen:
http://wiki.neo-layout.org/browser/statistik

Die Liste mit den häufigsten Wörtern könnte ebenfalls ein einen
Verzeichnis abgelegt werden, bzw. ein Verweis zu der Liste:
http://www.ids-mannheim.de/kl/projekte/methoden/derewo.html

[Neo] Textkörper für Neo3

Antwort per Email an