Am Mon, 14 Dec 2009 00:06:01 +0100 schrieb Pascal Hauck <[email protected]>:
> Seltene Namen werden auch in diesem Corpus nicht häufig auftauchen, > so dass die letztlich keinen wirklich störenden Einfluss haben. > Betrachtet man insbesondere nur Bigramme, ist der entstehende Fehler > noch geringer. Die im Leiziger Korpus zu stark vertretenen häufige Namen sind eine Momentaufnahme aus 2006. Sie verzerren die Feinheiten der Bigrammstatistik, die bei "manuellem" Belegen der Tasten gerne vernachlässigt werden, jedoch für programmgestützte Optimierungen relevant sein dürften. Z. B. stammt beim Bigramm öd die Hälfte der Häufigkeit allein vom Wort Schröder, das heute viel seltener geschrieben wird. Den Textkörper von Namen und geografischen Bezeichnungen zu befreien, stelle ich mir nicht so einfach vor, obschon es für unseren Zweck sinnvoll erscheint. Mit netten Grüßen Karl
