> Ich überlege gerade, ob es sinnvoll wäre, noch die Streuung der Werte > miteinzubeziehen, so dass es möglichst wenige worst case Worte gibt (sowas > wie „Völkerball“ in Neo).
Meinst du, dass man sich um einzelne Worte scheren soll? Klar, wenn ein wüstes Wort in einem Text dauernd vorkommt ist das vielleicht lästig, aber da kann man sich mit einem guten Editor weiterhelfen. Auf der Ebene ganzer Texte vermute ich, dass schon die Minimierung des Aufwands die Steuung klein macht: Die Häufigkeit häufiger Zeichen und Bigramme sollte eigentlich auch eine großen absolute Streuung haben. Genauer hypothetisiert, wenn ein Zeichen in einem Text der Länge n im Mittel m mal auftaucht erwarte ich als Vulgärstatistiker, dass die Varianz der Häufigkeit des Zeiches auch ungefähr m ist (Was zu zeigen wäre, schliesslich geht es hier nicht um radioaktiven Zerfall…). Da Optimierung den häufigen Zeichen und Bigrammen bevorzugt Positionen mit kleinen Gewicht zuweist wird mit dem mittleren Aufwand auch dessen Varianz minimiert. Andreas