Am Wed, 30 Dec 2009 17:12:55 schrieb wettstein...@solnet.ch:

> Zum Beispiel gibt es im Leipziger Korpus recht viele geraden
> Anführungszeichen ("), die anstelle typographisch korrekter
> Anführungszeichen benutzt werden.

Für den Leipziger Korpus wurde aus den Quellen jeweils ein Satz heraus
gepickt, was weitere Nachteile mit sich bringt. Deshalb kommt das "
im Leipziger Korpus reichlich oft lückenhaft vor, d. h. nicht als Paar,
wo ein Satz mit dem Zeichen beginnt oder endet. 

> Vor dem Problem der Korpusgröße steht bei Sonderzeichen, insbesondere
> seltenen, also das Problem der Quellenauswahl und allfälliger
> manueller Nachbesserung.  Auch ein 3G Leipziger Korpus würde hier
> nichts helfen, sondern im Gegenteil nur die manuelle Nachbesserung
> erschweren.

Die Leipziger Korpora basieren auf ISO-8859, also keine Unicodes, was
die Zeichenanzahl begrenzt.

Die Nachbesserung des Leipziger Korpus mit 3 Millionen Sätzen ist
weiterhin in Arbeit - schätzungsweise zu drei Viertel fertig gestellt.
Dabei versuche ich, folgende Kriterien umzusetzen:

an die Neue Rechtschreibung anpassen,
Teilkorrektur von Fehlern,
zeitungstypische Wiederholungen überarbeiten.

Das Gebiet der zeitungstypischen Wiederholungen ist weiter als zunächst
vermutet. Es umfasst in Großbuchstaben geschriebene Wörter,
Datums-/Autor-/Nachrichtenagenturangaben, Abkürzungen unter bestimmten
Bedingungen, Zwischengroßbuchstaben in Namen, Relevanzprüfung seltener
Zeichen, und Wiederholungen von Schlagzeileninhalten im darauffolgenden
Satz.

Bezogen auf Großbuchstaben und s bzw. ß sollte die Aussagekraft
anschließend sinnvoller sein. Ob sich der Aufwand des Nachbesserns
in weiteren Aspekten lohnen wird, vermag ich nicht abzuschätzen. 

Arbeitet jemand an der Erschließung eines anderen Textkörpers wie z. B.
Wikipedia?

Mit netten Grüßen
Karl



Antwort per Email an