On 13.03.2011 17:59, Arne Babenhauserheide wrote:
Aktuell würde ich die Parameter nun als gut einstufen. Was jetzt v.a. noch
fehlt ist ein passender Korpus: Wie soll die Verteilung auf Deutsch und
Englisch sein, und welche Texte nutzen wir? Sollen noch andere Sprachen rein
(Stichwort: Europäisches Layout)? Da brauche ich definitiv Hilfe - kann (und
will) ich nicht alleine entscheiden und kann es auch alleine nicht gut genug
stemmen, denke ich. Aufgabe: Freie Texte zusammenstellen, zusammen so 100-300
MiB repräsentativen Text, gerne auch mehr. Das geht vielleicht Michael
Gattinger an.

Ich würde, wie schon mehrfach vorgeschlagen, _keinen_ Mehrsprachen-Mischkorpus erstellen. Stattdessen sollte der Algorithmus auf einen homogenen Korpus (Deutsch) losgelassen werden, und unter den besten Layouts wählt man dann dasjenige aus, das weitere Kriterien erfüllt, beispielsweise gute Werte mit anderen Korpora (Englisch, …) oder einfache Erlernbarkeit.

– Mœsi

Antwort per Email an