Hallo allerseits,

Pascal Hauck ſchrieb am 17.04.2011 19:06 Uhr:
Da ein Großteil der am PC geschriebenen Texte zur Kommunikation gehören (E‑Mail, Chat, IRC, Twitter, soziale Netzwerke, …) sehe ich die einen enzyklopädischen Korpus kritisch.

Ein berechtigter Einwand! Der Pferdefuß bei einen proprietären Dienst wie Twitter liegt allerdings in den restriktiven Nutzungsbedingungen. Obwohl es eine recht reichhaltige API gibt, darf man die Daten längst nicht beliebig weiterverwerten. Bei Facebook & Konsorten ist die Situation ähnlich.

Von daher wäre es besser, auch hier auf freie Quellen (wie die Wikipedia) zu setzen. Mit identi.ca gibt es einen populären freien Microblogging-Dienst, bei dem alle Tweets unter CC-BY (erfordert nur die Quellennennung) stehen. Die API ist sogar Twitter-kompatibel, wäre für unsere Zwecke (große Datenmengen) aber zu ineffektiv. Leider gibt es keinen kompletten Datenbank-Dump wie bei der Wikipedia zum herunterladen, ich habe aber mal irgendwo gelesen, dass sie den bereitstellen würden, wenn es daran ein (gut begründetes) Interesse gäbe. Da auch die Geoinformationen des Browsers ausgelesen werden, könnte man vielleicht sinnvoll vorfiltern, indem man nur alle Tweets aus Deutschland benutzt … wobei das Putzen von Tweets eh’ eine Sisyphosaufgabe wäre. Wenn man alles URLs, Hashtags, englische Wörter etc. herausfiltern würde, bliebe bei nur 140 Zeilen wohl kaum etwas übrig :/

Da wäre es vielleicht doch sinnvoller, mehrere Mailinglisten- (oder Usenet-?) Archive anzuzapfen. Es muss ja nicht unbedingt die LKML sein ;).


Viele Grüße,
Dennis-ſ


Antwort per Email an