wettstein...@solnet.ch wrote:

>> *neugierig* Um was ging es bei den gerade im Sourcecode stehenden
>> speziellen Kriterien?
> 
> Entschuldige, «speziell» war nicht das rechte Wort.  Ich bin einfach
> nicht so fleissig wie Arne, das Feedback aus der Liste einzubauen, und
> drehe ab und an den Kriterien.  In zwei Wochen käme wahrscheinlich ein
> anderes Optimum raus, das ist, was ich sagen wollte.

Dafür hast du im Gegensatz zu mir bereits eine Korrekte Behandlung von 
Großbuchstaben drin. 

>> Also sollte es zudem darauf hinaus laufen, weitere Korpora aus
>> verschiedenen Gebieten für unsere Zwecke aufzubereiten.

> Vielleicht.  Ich habe mir zum Beispiel einen kleinen (600k) Korpus aus
> einer Archiv-DVD der Computerzeitschrift c't extrahiert (auch in neuer
> Rechtschreibung).  In dem kommt dann zum Beispiel, im Gegensatz zum
> Leipziger Korpus, das Komma häufiger vor als der Punkt.  Aber alles in
> allem sind die Auswirkungen auf das Ergebnis moderat.

Vielleicht können wir ja einen von Google bekommen. Die haben riesige 
Textkorpi (ich habe letztens einen Techtalk von ihnen gesehen, in dem sie 
ein Googler erzählt hat, dass sie die Rechnungen zu Wortstatistiken auf 
Clustern machen). 

Liebe Grüße, 
Arne

Antwort per Email an