Am 13.03.2011 17:59, schrieb Arne Babenhauserheide:
Aktuell würde ich die Parameter nun als gut einstufen. Was jetzt v.a. noch fehlt ist ein passender Korpus: Wie soll die Verteilung auf Deutsch und Englisch sein, und welche Texte nutzen wir? Sollen noch andere Sprachen rein (Stichwort: Europäisches Layout)? Da brauche ich definitiv Hilfe - kann (und will) ich nicht alleine entscheiden und kann es auch alleine nicht gut genug stemmen, denke ich. Aufgabe: Freie Texte zusammenstellen, zusammen so 100-300 MiB repräsentativen Text, gerne auch mehr. Das geht vielleicht Michael Gattinger an.
Dazu lese man Re: [Neo] Wikipedia-Korpus selbstgemacht vom 17.04.2011 23:48