> Ich überlege gerade, ob es sinnvoll wäre, noch die Streuung der Werte 
> miteinzubeziehen, so dass es möglichst wenige worst case Worte gibt (sowas 
> wie „Völkerball“ in Neo).

Meinst du, dass man sich um einzelne Worte scheren soll?  Klar, wenn ein
wüstes Wort in einem Text dauernd vorkommt ist das vielleicht lästig,
aber da kann man sich mit einem guten Editor weiterhelfen.

Auf der Ebene ganzer Texte vermute ich, dass schon die Minimierung des
Aufwands die Steuung klein macht: Die Häufigkeit häufiger Zeichen und
Bigramme sollte eigentlich auch eine großen absolute Streuung haben.
Genauer hypothetisiert, wenn ein Zeichen in einem Text der Länge n im
Mittel m mal auftaucht erwarte ich als Vulgärstatistiker, dass die
Varianz der Häufigkeit des Zeiches auch ungefähr m ist (Was zu zeigen
wäre, schliesslich geht es hier nicht um radioaktiven Zerfall…).  Da
Optimierung den häufigen Zeichen und Bigrammen bevorzugt Positionen mit
kleinen Gewicht zuweist wird mit dem mittleren Aufwand auch dessen
Varianz minimiert.

Andreas




Antwort per Email an