Re: [Neo] Dilettieren mit automatischer Optimierung

Sebastian Werk Tue, 15 Dec 2009 11:50:35 -0800

Moin,

wegen der Wortlisten ist mir ein altes Projekt wieder eingefallen.


Die Uni-Leipzig hat das Wortschatz-Projekt, da ist zu jedem Wort, was
sie so finden auch die Häufigkeit angegeben.

http://corpora.informatik.uni-leipzig.de/?dict=de

Vielleicht ist das ja hilfreich

Viele Grüße

Sepp (:

Karl Köckemann schrieb:
> Hallo,
> 
> Am Sun, 13 Dec 2009 15:23:16 +0100
> schrieb [email protected]:
> 
>> Ich habe den Optimierer so erweitert, dass er Shift berücksichtigen
>> kann.  [...]  Für den Vergleich habe ich den Leipziger Textkorpus
>> verwendet (genauer gesagt die Tabellen «1gramme.txt» und
>> «2gramme.txt» die Karl daraus erzeugt hat).
> 
> Gerade versuche ich den Leipziger Textkorpus von ein paar Fehlern und
> überrepräsentierten Kürzeln zu befreien, z. B. (dpa), (AFP), (Reuter).
> 
> Leider sind viele Städtenamen komplett in Großbuchstaben geschrieben
> (FRANKFURT, BERLIN, etc.), wodurch die Häufigkeiten der Großbuchstaben
> ein wenig verzerrt sein könnten. Wie das in dem Korpus umfassend behoben
> werden kann, ist mir noch nicht klar.
> 
> Unter den 80 % der häufigsten Wörter sollen die der alten
> Rechtschreibung unterliegenden zur Neuen Rechtschreibung übertragen
> werden. Auf s und insbesondere auf ß wird sich das auswirken.
> 
> Zu dem auf den Leipziger Textkorpus basierenden bereinigten Textkörper
> sollen neue Listen mit Bigrammen und Zeichenhäufigkeiten aufgestellt
> werden.
> 
> Dennoch werden wir weitere Textkörper brauchen, da im Leipziger
> Textkorpus zwar auch Sätze aus ein paar Fachbüchern stehen,
> jedoch basiert er überwiegend aus Zeitungsartikeln.
> Der Leipziger Textkorpus enthält übermäßig viele Personen- und
> Ortsnamen, die von den meisten Tastschreibern höchst selten geschrieben
> werden, sich aber vermutlich unerwünscht auf die Bigrammliste auswirken.
> Ist abschätzbar, ob ein auf Wikipedia basierender Textkörper ebenfalls
> zuviele Namen enthielte?
> Angenehm wäre ein umfangreicher deutschsprachiger Textkörper in Neuer
> Rechtschreibung ohne Personennamen bzw. geografische Namen (einer der
> vielen Korpora des IDS Mannheim wäre reichlich teuer).
> 
> Die Untersuchungen mit Bigrammen legen nahe, dass
> ein 300-Millionen-Zeichen-Textkörper bei weniger häufigen Bigrammen
> gerade genug Häufigkeiten liefert, damit anschließende Berechungen, um
> keine zu hohe Fehlerrate erwarten zu müssen. Wie das für Trigramme
> aussähe, damit habe ich mich bislang nicht befasst.
> 
> Mit netten Grüßen
> Karl
> 
> 
>

smime.p7s
Description: S/MIME Cryptographic Signature

Re: [Neo] Dilettieren mit automatischer Optimierung

Antwort per Email an