> In den Corpora der Uni-Leipzig ist jeweils eine Datei namens words.txt > enthalten, die die Wörter des betreffenden Corpus in der gewünschten > Weise enthält. In der Datei besteht jede Zeile aus Rangnummer (je > kleiner die Zahl, desto häufiger das Wort), das Wort und die absolute > Häufigkeit. > Statt nur Kleinbuchstaben zu verwenden, wäre es machbar (sofern > überhaupt sinnvoll), den Großbuchstaben Strafpunkte zu geben?
Ja. Genau diese Datei habe ich als Ausgangspunkt benutzt (siehe meine Email, da ist „words.txt“ erwähnt). > > 5. Schauen wir uns die Datei w3.txt mal an: > > > > aaber 1 > > aabiete 1 > > aabrar 1 > > aaby 1 > > aabye 1 > > aac 2 > > aach 25 > > aachen 801 > > aachene 1 > > aachener 339 > > aachenerin 5 > > aachenern 2 > > aacheners 2 > > aachens 22 > > aacm 1 > > aacsb 2 > > aad 31 > > aadabei 1 > > aads 1 > > aaen 1 > > aaf 2 > > aafach 1 > > aafang 1 > > … > > aafmüpfig 1 > > … > > aagehn 1 > > … > > aah 14 > > … > > abadschiew 1 > > abadschijew 1 > > … > > abdrükke 1 > > … > > eßgenuß 1 > > … > > genuß 313 > > genuss 392 > > … > > nun 41429 > > nunavut 7 > > nunez 17 > > nunmal 21 > > nunmehr 1349 > > nunmehrigen 6 > > nunn 29 > > nuno 10 > > nünthel 40 > > nuntiatur 8 > > nuntius 27 > > nuon 8 > > [...] > > Die Datei w3.txt enthält etwa 1 Million Zeilen, darunter also jede > > Menge Rechtschreibfehler. > > Aus welcher Datei (welchem Corpus) stammen diese Wörter? Wie ich in meiner Email schon beschrieben habe, stammt w3.txt aus w2.txt, die auf w1.txt, w.txt und davor words.txt basiert. > Bei 1 Million Zeilen, würden da die als fehlerhaft vermuteten Wörter > (wurden ein paar Sätze durchgegesehen, in denen sie stehen?) aufgrund > ihrer geringen Häufigkeiten bei statistischen Analysen im Ergebnis so > stark ins Gewicht fallen, dass sie tatsächlich aus der Datei > verschwinden müssten? Sind wir auf eine so hohe Präzision angewiesen, > dass sämtliche Rechtschreibfehler zuvor beseitigt werden müssten? Eine schöne Frage für die Runde der Kritiker. Mein Textkorpus, den ich in meinem Auswerteprogramm benutze, ist vollständig bereinigt für irrelevante Wörter und Fehler — das Vorgehen habe ich in den damaligen Mails beschrieben. Es war eine unglaublich anstrengende Arbeit, das kann sich keiner vorstellen, ganze Nächte. Ich vergleiche Tastaturen auf ihre Fähigkeit, diesen bereinigten Korpus zu tippen. > > Vergiss Leipzig. Oder nicht? > > Nein. Solange keine bessere Alternative besteht, lassen sich aus den > großen Corpora eine Menge Erkenntnisse gewinnen, die mit kleinen > Corpora nicht nennenswert anders zu erwarten sein werden. Auch sind die > Häufigkeiten aus den großen Corpora zuverlässiger, selbst wenn darin > ein paar Tippfehler enthalten sind. Ich bin gespannt auf die Mitteilung von denen, die Tastaturen bewerten und mit einander vergleichen –wobei sie einerseits den Leipziger Korpus benutzen und andererseits zum Beispiel meinen –ob dadurch plötzlich eine andere Tastatur besser erscheint als vorher angenommen. Und überhaupt wird es spannend zu sehen, welche zusätzliche Erkenntnisse wir da gewinnen. Lassen wir es auf uns zukommen. ==== Ich arbeite zur Zeit auf ein neues Bewertungssystem, bei dem überhaupt kein Textkorpus Verwendung findet, sondern nur ein Matrixmodell, das die Häufigkeiten der Folgezeichen bewertet. Habe ich also unter einem Finger drei Tasten, eine in jeweils der oberen, mittleren und unteren Reihe, dann kann ich für jede der Tasten das Risiko berechnen, eine der zwei anderen in der Folge drücken zu müssen, durch einfache Addition. Der Matrix entsteht natürlich durch Abgrasen eines Korpus. Verschiedene Korpora führen demnach zu unterschiedlichen Matrizen. Wenn die Inhalte der Matrixzellen als relative Größen ausgedrückt werden, wird es einfach sein, die tatsächliche Bedeutung eines Korpuswechsels zu quantifizieren. Ich nehme an, dass die Matrixmethode sehr schnell sein wird (millisekunden) und somit die Grundlage eines automatisierten Entwicklungssystems werden kann. Aber das nur so nebenbei. Vielleicht hat jemand anders ja den großen Wurf gemacht, bevor ich so weit bin. Ulf