Am Mon, 30 Nov 2009 12:52:32 +0100
schrieb Ulf Bro <[email protected]>:
> Mein Textkorpus, den ich in meinem Auswerteprogramm benutze, ist
> vollständig bereinigt für irrelevante Wörter und Fehler — das
> Vorgehen habe ich in den damaligen Mails beschrieben.

Ich überlege, den Leipzig-Corpus sowie dessen Wörterliste um einige
offensichtlich Rechtschreibfehler zu bereinigen, sowie häufige Wörter
der alten Rechschreibung (daß -- dass, etc.) durch die der neuen zu
ersetzen. Wäre das sinnvoll?

> Es war eine unglaublich anstrengende Arbeit, das kann sich keiner
> vorstellen, ganze Nächte.

Doch, das kann ich mir vorstellen, und ich weiß es sehr zu schätzen.

> Ich arbeite zur Zeit auf ein neues Bewertungssystem, bei dem
> überhaupt kein Textkorpus Verwendung findet, sondern nur ein
> Matrixmodell, das die Häufigkeiten der Folgezeichen bewertet.

Selber traue ich mir das Programmieren solch eines Bewertungssystems
nicht zu, jedoch erfüllst du damit einen Wunsch. Ich bin begeistert!
Mich erinnert das an das Beispiel (leider nicht für zwei Hände
ausgebaut); (spielte es bei deinen feinen Ideen eine Rolle?):
http://www.public.iastate.edu/~crb002/ie574final.pdf
http://www.public.iastate.edu/~crb002/ie574/code

> Vielleicht hat jemand anders ja den großen Wurf gemacht, bevor ich so weit 
> bin.

Dann müsste der große Wurf sich anschließend im Matrixmodell
bewähren. ;-)

Mit netten Grüßen
Karl



Antwort per Email an