Am 14.03.2011 11:48, schrieb Arne Babenhauserheide:
Da brauche ich definitiv Hilfe - kann (und
will) ich nicht alleine entscheiden und kann es auch alleine nicht gut
genug stemmen, denke ich. Aufgabe: Freie Texte zusammenstellen,
zusammen so 100-300 MiB repräsentativen Text, gerne auch mehr.
Wieviel Aufwand ist es eine Belegung gegen einen neuen Korpus zu testen?
Mit vorgenerierten nGrammen (1gramme.txt, 2gramme.txt, 3gramme.txt) braucht es
nur ein paar Sekunden.
Welche Syntax erfordern diese Typisierten Dateien?
Oder anders: Welche Infos stehen da drin?
Beispiel?

en 17,5%
er 12,3%
ar 5,7%

???

(!Fantasiewerte)

Antwort per Email an