On 13.03.2011 17:59, Arne Babenhauserheide wrote:
Aktuell würde ich die Parameter nun als gut einstufen. Was jetzt v.a. noch fehlt ist ein passender Korpus: Wie soll die Verteilung auf Deutsch und Englisch sein, und welche Texte nutzen wir? Sollen noch andere Sprachen rein (Stichwort: Europäisches Layout)? Da brauche ich definitiv Hilfe - kann (und will) ich nicht alleine entscheiden und kann es auch alleine nicht gut genug stemmen, denke ich. Aufgabe: Freie Texte zusammenstellen, zusammen so 100-300 MiB repräsentativen Text, gerne auch mehr. Das geht vielleicht Michael Gattinger an.
Ich würde, wie schon mehrfach vorgeschlagen, _keinen_ Mehrsprachen-Mischkorpus erstellen. Stattdessen sollte der Algorithmus auf einen homogenen Korpus (Deutsch) losgelassen werden, und unter den besten Layouts wählt man dann dasjenige aus, das weitere Kriterien erfüllt, beispielsweise gute Werte mit anderen Korpora (Englisch, …) oder einfache Erlernbarkeit.
– Mœsi