[Neo] Identi.ca-Korpus? (was: Re: Wikipedia-Korpus selbstgemacht)

Dennis Heidsiek Tue, 19 Apr 2011 08:56:14 -0700

Hallo allerseits,


Pascal Hauck ſchrieb am 17.04.2011 19:06 Uhr:

Da ein Großteil der am PC geschriebenen Texte zur Kommunikationgehören (E‑Mail, Chat, IRC, Twitter, soziale Netzwerke, …) sehe ichdie einen enzyklopädischen Korpus kritisch.

Ein berechtigter Einwand! Der Pferdefuß bei einen proprietären Dienstwie Twitter liegt allerdings in den restriktiven Nutzungsbedingungen.Obwohl es eine recht reichhaltige API gibt, darf man die Daten längstnicht beliebig weiterverwerten. Bei Facebook & Konsorten ist dieSituation ähnlich.

Von daher wäre es besser, auch hier auf freie Quellen (wie dieWikipedia) zu setzen. Mit identi.ca gibt es einen populären freienMicroblogging-Dienst, bei dem alle Tweets unter CC-BY (erfordert nur dieQuellennennung) stehen. Die API ist sogar Twitter-kompatibel, wäre fürunsere Zwecke (große Datenmengen) aber zu ineffektiv. Leider gibt eskeinen kompletten Datenbank-Dump wie bei der Wikipedia zumherunterladen, ich habe aber mal irgendwo gelesen, dass sie denbereitstellen würden, wenn es daran ein (gut begründetes) Interessegäbe. Da auch die Geoinformationen des Browsers ausgelesen werden,könnte man vielleicht sinnvoll vorfiltern, indem man nur alle Tweets ausDeutschland benutzt … wobei das Putzen von Tweets eh’ eineSisyphosaufgabe wäre. Wenn man alles URLs, Hashtags, englische Wörteretc. herausfiltern würde, bliebe bei nur 140 Zeilen wohl kaum etwas übrig :/

Da wäre es vielleicht doch sinnvoller, mehrere Mailinglisten- (oderUsenet-?) Archive anzuzapfen. Es muss ja nicht unbedingt die LKML sein ;).



Viele Grüße,
Dennis-ſ

[Neo] Identi.ca-Korpus? (was: Re: Wikipedia-Korpus selbstgemacht)

Antwort per Email an