Am Mon, 14 Dec 2009 00:06:01 +0100
schrieb Pascal Hauck <[email protected]>:

> Seltene Namen werden auch in diesem Corpus nicht häufig auftauchen,
> so dass die letztlich keinen wirklich störenden Einfluss haben.
> Betrachtet man insbesondere nur Bigramme, ist der entstehende Fehler
> noch geringer.

Die im Leiziger Korpus zu stark vertretenen häufige Namen sind eine
Momentaufnahme aus 2006. Sie verzerren die Feinheiten der
Bigrammstatistik, die bei "manuellem" Belegen der Tasten gerne
vernachlässigt werden, jedoch für programmgestützte Optimierungen
relevant sein dürften.
Z. B. stammt beim Bigramm öd die Hälfte der Häufigkeit allein vom Wort
Schröder, das heute viel seltener geschrieben wird.
Den Textkörper von Namen und geografischen Bezeichnungen zu befreien,
stelle ich mir nicht so einfach vor, obschon es für unseren Zweck
sinnvoll erscheint.

Mit netten Grüßen
Karl



Antwort per Email an