Am Sun, 29 Nov 2009 16:19:58 +0100 schrieb Dennis Heidsiek <[email protected]>:
> Ich plädiere auch weiterhin dafür, einen Dump der deutschsprachigen > Wikipedia (natürlich ›dewikifiziert‹) auszuwerten. Um daraus einen gut verwertbaren Textkörper zu bekommen, vielleicht bedarf es da der Erfahrung eines Korupslinguisten sowie einer Menge Rechenkapazität. Den (vielleicht arg unterschätzt) hohen Aufwand des Strippens eines Wikipedia-Dumps traue ich mir nicht zu, obschon die Idee mir gut gefällt. > Auf diese Weise vermeidet man Schreibfehler, bekommt aber > gleichzeitig ›echte‹ Texte zu einer Vielzahl von Themen. Rechtschreibfehler wird es in Wikipedia ebenfalls geben - wie überall. Auf lexikalischem Gebiet könnten Wikipedia-Inhalte nach entsprechend aufwendigem Strippen als Textkörper ebenso ›echt‹ sein, wie die Leipzig-Korpora auf ihrem Gebiet. Sicher werden viele verschiedene Wörter erfasst werden können, jedoch deren Häufigkeit kann aus aus Lexika erstellten Textkörpern nicht ermittelt werden, da sie - der Natur eines Lexikons entsprechend - Themen zusammenfassen und nicht repräsentieren, wie oft die aus Lexika gewonnenen Wörter in der Praxis der Texte der jeweiligen Themengebiete tatsächlich auftreten. Somit können aus Lexika zwar Wortlisten extrahiert werden, jedoch wird die Relevanz für den allgemeinen Gebrauch von daraus gewonnenen Worthäufigkeiten extrem variieren. Den Weg, mehrere nicht gigantische Textkörper aus vielen verschiedenen Themengebieten heranzuziehen, halte ich für gut, allerdings nicht durch Lexika, die nun einmal nicht ›echte‹ vollständige Texte ersetzen können. Mit nettem Gruß Karl
