> Je nachdem, welche Informationen aus dem Textkörper geholt werden > sollen, kann ein größerer Textkörper erforderlich sein.
Das ist richtig. Für ein Gesamturteil reicht ein recht kleiner Korpus, weil es sich aus vielen Einzelhäufigkeiten zusammensetzt, oder anders ausgedrückt, einen Großteil der Information im Korpus tatsächlich auch verwendet. > Interessant könnte sein, einen Textkörper in einer Matrix abzubilden, > die die Wahrscheinlichkeiten enthält, mit der ein Zeichen auf ein > anderes folgt (bzw. ihm voraus geht). Wenn man die Bigrammhäufigkeiten mit der Häufigkeit des betreffenden Zeichens normiert hat man genau das. > Zum Erzeugen solch einer Matrix (z. B. anhand einer Trigrammliste nach > dem mittleren Zeichen sortiert) erscheint mir tatsächlich ein recht > großer Textkörper erforderlich, wenn der Fehler im relevanten Bereich > nicht zu hoch werden soll. Wenn einem wirklich an jedem einzelnen Eintrag der Matrix liegt braucht man tatsächlich einen großen Korpus. Für die Tastaturoptimierung liegt einem aber nicht an jedem einzelnen Eintrag. > Kann man anhand der Fehlerbetrachtung für Bigramme auch auf eine für > Trigramme schließen? Wenn man den statistischen Fehler für die Häufigkeit eines bestimmten Trigramms haben will kann man diese nicht einfach aus dem statistischen Fehler der beiden enthaltenen Bigramme gewinnen. Andererseits glaube ich nicht, dass sich die Anforderungen an den Korpus wesentlich ändern, wenn man Trigramme in die Gesamtbewertung mit einbezieht, vorrausgesetzt, man tut das vernünftig. Andreas