In diesem Beitrag seien Gedanken zum Aufbau eines oder mehrer einheitlicher nicht kleiner Textkörper für statistische Analysen zur Entwicklung von Neo3 vorgetragen.
Bewusst vermeide ich den in der Korpuslinguistik und der Computerlinguistik üblichen Begriff Textkorpus. Für die Entwicklung einer Tastenbelegung dürften erheblich andere Anforderungen an einen Textkörper gestellt werden. So können für linguistische Zwecke bereinigte Textkorpora sich für statistische Analysen zur Tastenbelegung als unbrauchbar herausstellen. Gute Textkorpora für den deutschen Sprachraum kosten viel Geld. Das Erstellen eines eigenen Textkörpers für Neo3 erscheint mir sinnvoll, zumal wir dann auch wissen, worauf genau er basiert und welche Kriterien er erfüllt. Interessant ist die Häufigkeit der Tastenbetätigung(en) zum Erzeugen jedes Zeichens, wofür wiederum die Zeichenhäufigkeit möglichst aller Zeichen benötigt wird (zumindest die der ersten beiden Ebenen; auch von mittels Toten Tasten erzeugten Zeichen). Die öffentlich auffindbaren Daten erweisen sich als mager, da sie zu viele Zeichen der ersten beiden Ebenen vernachlässigen. Beispiele: ß, Interpunktionszeichen oder Leerzeichen fehlen oft in Angaben zur Buchstabenhäufigkeit. Die Häufigkeit des Leerzeichens übersteigt tatsächlich die des häufigsten Buchstabens. (Einmal sah ich eine Tastenbelegung, bei der die Leertaste als Shift diente, wobei das Leerzeichen auf der Grundreihe stand.) In alltäglichen Texten kommen z. B. Tabulatorzeichen und Zeilenvorschübe vor, zu deren Häufigkeit ich nichts gefunden habe. Buchstabenhäufigkeitsangaben unterscheiden bisweilen nicht zwischen Groß- und Kleinbuchstaben. Bei Bi- und Trigrammen werden Wortanfänge, Wortendungen, Interpunktionszeichen, Leerzeichen, Zeilenvorschübe und Seitenumbruchzeichen meist nicht hinreichend einbezogen. Aus einem eigenen hinreichend großen Textkörper müssten sich die erwünschten Daten hinreichend zufriedenstellend hervorbringen lassen. Ein lehrreiches Beispiel der geschickten Anwendung von Textkörpern: http://www.public.iastate.edu/~crb002/eprints.html "Optimizing stylus keyboard layouts with a genetic algorithm: customization and internatinalization" Der im Aufsatz beschriebene Verweis zu den Quelltexten lautet jetzt: http://www.public.iastate.edu/~crb002/ie574/code/ Bei etlichen Funktionen, z. B. Ausschneiden, Kopieren, Einfügen, Löschen, Cursorsteuerung, wird die Häufigkeit des Tastengebrauchs schwierig erfassbar sein. Nebenbei: Klausler ging so weit, mittels eines Progrämmchens zusätzlich die Zeiten zu erfassen, die jeder Finger zum Erreichen bestimmter Tasten benötigt. Leider hat er von keinem der angekündigten Teilnehmer die entstandenen Dateien erhalten. Ein Vergleich solcher Dateien mit subjektiv vergebenen Strafpunkten für die einzelnen Tasten könnte aufschlussreiche Erkenntnisse liefern. Soeben wollte ich mit dem Aufbau eines Textkörpers mit Texten von Franz Kafka (aus dem Projekt Gutenberg) beginnen, schon kommen die ersten Fragen auf. Als Ziel hatte ich mir vorgestellt, einen (oder einige) nicht kleinen Textkörper für Neo3 erstellt zu bekommen, der - einmal aufbereitet - bald nicht mehr verändert wird und einheitlich von allen verwendet werden kann, die statistische Analysen vornehmen möchten. Oftmals werden Inhaltsverzeichnisse heute nicht mehr von Hand eingegeben, sondern vom Textverarbeitungsprogramm automatisch erstellt. Sollen Inhaltsverzeichnisse in den Textkörper aufgenommen werden? Da die einzelnen Kapitel mit einem Seitenumbruchzeichen enden müssten, die Seiten jedoch von Hand ohne dieses Zeichen in den Texteditor kopiert werden, erhebt sich die Frage, ob das Seitenumbruchzeichen von Hand eingefügt werden soll, wo es eigentlich sein müsste. Sogleich fällt die veraltete Verwendung bestimmter Zeichen auf, und erst recht die veraltete Rechtschreibung. Da in Zukunft immer weniger in alter Rechtschreibung eingetippt werden wird: Soll der Textkörper für Neo3 auf der neuen Rechtschreibung basieren? Falls ja, müsste der Anteil der Texte in alter Rechtschreibung ziemlich niedrig gehalten werden. Oder sollte mittels Programme die alte Rechtschreibung in neue übertragen werden? Der Aufbau eines einheitlichen nicht kleinen Textkörpers, soll er nach klaren Kriterien erfolgen? Einige wurden in der Mailingliste schon öfter genannt, z. B. jeweils eine bestimmte Anzahl von Texten aus verschiedenen Bereichen. Von den gigantischen Textkorpora der Linguisten können etliche Kriterien zur Aufbereitung für Neo3-Textkörper übernommen werden, z. B. aus welchen Gebieten Texte bis zu welcher Größe aufgenommen werden sollen. Für jetzt soll es genügen ... Mit netten Grüßen Karl P. S.: Im Verzeichnis Leipzig stehen Listen mit den häufigsten Bi- und Trigrammen: http://wiki.neo-layout.org/browser/statistik Die Liste mit den häufigsten Wörtern könnte ebenfalls ein einen Verzeichnis abgelegt werden, bzw. ein Verweis zu der Liste: http://www.ids-mannheim.de/kl/projekte/methoden/derewo.html
