Re: [Neo] Wie groß muss ein Korpus sein?

wettstein509 Tue, 29 Dec 2009 02:48:37 -0800

> Je nachdem, welche Informationen aus dem Textkörper geholt werden
> sollen, kann ein größerer Textkörper erforderlich sein.


Das ist richtig.  Für ein Gesamturteil reicht ein recht kleiner Korpus,
weil es sich aus vielen Einzelhäufigkeiten zusammensetzt, oder anders
ausgedrückt, einen Großteil der Information im Korpus tatsächlich auch
verwendet.

> Interessant könnte sein, einen Textkörper in einer Matrix abzubilden,
> die die Wahrscheinlichkeiten enthält, mit der ein Zeichen auf ein
> anderes folgt (bzw. ihm voraus geht).

Wenn man die Bigrammhäufigkeiten mit der Häufigkeit des betreffenden
Zeichens normiert hat man genau das.

> Zum Erzeugen solch einer Matrix (z. B. anhand einer Trigrammliste nach
> dem mittleren Zeichen sortiert) erscheint mir tatsächlich ein recht
> großer Textkörper erforderlich, wenn der Fehler im relevanten Bereich
> nicht zu hoch werden soll.

Wenn einem wirklich an jedem einzelnen Eintrag der Matrix liegt braucht
man tatsächlich einen großen Korpus.  Für die Tastaturoptimierung liegt
einem aber nicht an jedem einzelnen Eintrag.

> Kann man anhand der Fehlerbetrachtung für Bigramme auch auf eine für
> Trigramme schließen?

Wenn man den statistischen Fehler für die Häufigkeit eines bestimmten
Trigramms haben will kann man diese nicht einfach aus dem statistischen
Fehler der beiden enthaltenen Bigramme gewinnen.

Andererseits glaube ich nicht, dass sich die Anforderungen an den Korpus
wesentlich ändern, wenn man Trigramme in die Gesamtbewertung mit
einbezieht, vorrausgesetzt, man tut das vernünftig.

Andreas

Re: [Neo] Wie groß muss ein Korpus sein?

Antwort per Email an