Moin, wegen der Wortlisten ist mir ein altes Projekt wieder eingefallen.
Die Uni-Leipzig hat das Wortschatz-Projekt, da ist zu jedem Wort, was sie so finden auch die Häufigkeit angegeben. http://corpora.informatik.uni-leipzig.de/?dict=de Vielleicht ist das ja hilfreich Viele Grüße Sepp (: Karl Köckemann schrieb: > Hallo, > > Am Sun, 13 Dec 2009 15:23:16 +0100 > schrieb [email protected]: > >> Ich habe den Optimierer so erweitert, dass er Shift berücksichtigen >> kann. [...] Für den Vergleich habe ich den Leipziger Textkorpus >> verwendet (genauer gesagt die Tabellen «1gramme.txt» und >> «2gramme.txt» die Karl daraus erzeugt hat). > > Gerade versuche ich den Leipziger Textkorpus von ein paar Fehlern und > überrepräsentierten Kürzeln zu befreien, z. B. (dpa), (AFP), (Reuter). > > Leider sind viele Städtenamen komplett in Großbuchstaben geschrieben > (FRANKFURT, BERLIN, etc.), wodurch die Häufigkeiten der Großbuchstaben > ein wenig verzerrt sein könnten. Wie das in dem Korpus umfassend behoben > werden kann, ist mir noch nicht klar. > > Unter den 80 % der häufigsten Wörter sollen die der alten > Rechtschreibung unterliegenden zur Neuen Rechtschreibung übertragen > werden. Auf s und insbesondere auf ß wird sich das auswirken. > > Zu dem auf den Leipziger Textkorpus basierenden bereinigten Textkörper > sollen neue Listen mit Bigrammen und Zeichenhäufigkeiten aufgestellt > werden. > > Dennoch werden wir weitere Textkörper brauchen, da im Leipziger > Textkorpus zwar auch Sätze aus ein paar Fachbüchern stehen, > jedoch basiert er überwiegend aus Zeitungsartikeln. > Der Leipziger Textkorpus enthält übermäßig viele Personen- und > Ortsnamen, die von den meisten Tastschreibern höchst selten geschrieben > werden, sich aber vermutlich unerwünscht auf die Bigrammliste auswirken. > Ist abschätzbar, ob ein auf Wikipedia basierender Textkörper ebenfalls > zuviele Namen enthielte? > Angenehm wäre ein umfangreicher deutschsprachiger Textkörper in Neuer > Rechtschreibung ohne Personennamen bzw. geografische Namen (einer der > vielen Korpora des IDS Mannheim wäre reichlich teuer). > > Die Untersuchungen mit Bigrammen legen nahe, dass > ein 300-Millionen-Zeichen-Textkörper bei weniger häufigen Bigrammen > gerade genug Häufigkeiten liefert, damit anschließende Berechungen, um > keine zu hohe Fehlerrate erwarten zu müssen. Wie das für Trigramme > aussähe, damit habe ich mich bislang nicht befasst. > > Mit netten Grüßen > Karl > > >
smime.p7s
Description: S/MIME Cryptographic Signature
