Am Mon, 30 Nov 2009 12:52:32 +0100 schrieb Ulf Bro <[email protected]>: > Mein Textkorpus, den ich in meinem Auswerteprogramm benutze, ist > vollständig bereinigt für irrelevante Wörter und Fehler — das > Vorgehen habe ich in den damaligen Mails beschrieben.
Ich überlege, den Leipzig-Corpus sowie dessen Wörterliste um einige offensichtlich Rechtschreibfehler zu bereinigen, sowie häufige Wörter der alten Rechschreibung (daß -- dass, etc.) durch die der neuen zu ersetzen. Wäre das sinnvoll? > Es war eine unglaublich anstrengende Arbeit, das kann sich keiner > vorstellen, ganze Nächte. Doch, das kann ich mir vorstellen, und ich weiß es sehr zu schätzen. > Ich arbeite zur Zeit auf ein neues Bewertungssystem, bei dem > überhaupt kein Textkorpus Verwendung findet, sondern nur ein > Matrixmodell, das die Häufigkeiten der Folgezeichen bewertet. Selber traue ich mir das Programmieren solch eines Bewertungssystems nicht zu, jedoch erfüllst du damit einen Wunsch. Ich bin begeistert! Mich erinnert das an das Beispiel (leider nicht für zwei Hände ausgebaut); (spielte es bei deinen feinen Ideen eine Rolle?): http://www.public.iastate.edu/~crb002/ie574final.pdf http://www.public.iastate.edu/~crb002/ie574/code > Vielleicht hat jemand anders ja den großen Wurf gemacht, bevor ich so weit > bin. Dann müsste der große Wurf sich anschließend im Matrixmodell bewähren. ;-) Mit netten Grüßen Karl
