Dennis Heidsiek <HeidsiekB <at> aol.com> writes: > Karl Köckemann ſchrieb am 04.05.2010 18:41 Uhr: > > Dort, wo wir unseren Leipziger Korpus her haben, werden weitere (weniger > > große) Korpora für unterschiedlich Sprachen bereitgestellt. Der dortige > > englischsprachige könnte für den Anfang genügen. > > Tatsächlich, vielen herzlichen Dank für den Hinweis! Hier ist nochmal > der Link: > http://corpora.informatik.uni-leipzig.de/download.html > > Kann vielleicht mal jemand der ›Auswerter‹ so nett sein und Neo 2 und > NordTast in Bezug auf einen rein englischen Korpus analysieren? Es wäre > schon interessant, ob die sich Nordtast-Optimierungen im Englischen eher > positiv oder negativ auswirken … ich hoffe auf die erste Variante :). > > Falls das schon jemand gemacht hat und ich einfach die entsprechende > Mail übersehen haben sollte, bitte ich um einen entsprechenden Hinweis :).
Leider basiert der englischsprachige Leipziger Korpus nur auf wenigen Textquellen, d. h. er dürfte arg zeitungslastig sein, vor allem Wirtschafts- und Finanzmeldungen. Es wird mich nicht wundern, wenn das Bigramm 'AP', Datumsangaben sowie Firmennamen extrem häufig vorkommen. Vielleicht wäre es besser, auch andere englischsprachige Korpora einzubeziehen. Mit schönen Grüßen Karl
