Am 17.04.2011 22:23, schrieb Florian Janßen:
Pascal Hauck schrieb am 17.04.2011 um 22:11 Uhr:
Am Sonntag, 17. April 2011, 19:44:19 schrieb Karl Köckemann:
Ziel ist es, mehrere Korpora zu verwenden, um
die dadurch unterschiedlichen Ergebnisse vergleichen zu können.
In diesem Fall bin ich sehr dafür, die Wikipedia als EINEN Testkorpus mit
aufzunehmen. Es ist nur wichtig, die Nachteiles dieses Korpus zu kennen – aber
das gilt für andere natürlich ebenso.
Natürlich ist Wikipedia kein Referenzkorpus, aber er liefert eine Menge
freien Text in halbwegs aktueller deutscher Sprache.

Ich habe vor kurzem angefangen diese Mailingliste auszuwerten, da dürfte
das Trigramm „Neo“ allerdings etwas zu häufig vorkommen ;)

Gruß Florian

Nicht nur "Neo" ... Auch Wörter wie Tastatur, Taste, Buchstabe, n-Gramm usw. sind hier völlig übervorteilt.

Antwort per Email an