Hallo allerseits,
Karl Köckemann ſchrieb am 13.12.2009 23:12 Uhr:
Der Leipziger Textkorpus enthält übermäßig viele Personen- und Ortsnamen, die von den meisten Tastschreibern höchst selten geschrieben werden, […] Ist abschätzbar, ob ein auf Wikipedia basierender Textkörper ebenfalls zuviele Namen enthielte?
Die Wikipedia ist eine Enzyklopädie, also wird es auch hier sicherlich viele Lemmata zu Personen und Orten (auch aus dem Ausland) geben. Aber schon allein aufgrund des größeren Textkörpers wäre ich vorsichtig optimistisch, dass sich das quasi ›verwächst‹; außerdem sollte dieses Problem bei den ¿verhältnismäßig kurzen? Agenturmeldungen stärker zum Tragen kommen als bei einem langen Wikipedia-Artikel.
Das sind aber natürlich alles nur Mutmaßungen; um das wirklich beantworten zu können, müssten wir uns diesen Textkörper tatsächlich erschließen.
Viele Grüße, Dennis-ſ
