Pascal Hauck <neo <at> pascalhauck.de> writes:

> Da ein Großteil der am PC geschriebenen Texte zur Kommunikation gehören 
> (E‑Mail, Chat, IRC, Twitter, soziale Netzwerke, …) sehe ich die einen 
> enzyklopädischen Korpus kritisch.
> Jede darauf aufbauende Optimierung ist zumindest fraglich und kann nicht 
> zweifelsfrei behaupten, die selbst gesteckten hohen Ansprüche zu erfüllen.

Klar ist die Skepsis berechtigt. Ziel ist es, mehrere Korpora zu verwenden, um
die dadurch unterschiedlichen Ergebnisse vergleichen zu können. Deshalb wird
auch ein aus Wikipedia erstellter Korpus nicht vergebens sein.

Auch halte ich es für interessant, aus verschiedenen Korpora einen Refernzkorpus
zu erstellen.

Beim derzeit zu Probezwecken verwendeten Leipziger Korups bin ich ebenfalls
skeptisch, da er sehr viele störende Eigentümlichkeiten enthält.

Ein erheblicher Teil des Wikipediakorpus wird enorm geputzt werden müssen, z. B.
alle Tabellen, alle Aufzählungen und alle Überschriften innerhalb von Artikeln,
da beides für unsere Belange praktisch untauglich sein wird.

Bislang ist mir keine Quelle untergekommen, aus der wir einen für Neo
hochwertigen Korpus extrahieren können.

Mit netten Grüßen
Karl


Antwort per Email an