Hallo allerseits,
Pascal Hauck ſchrieb am 17.04.2011 19:06 Uhr:
Da ein Großteil der am PC geschriebenen Texte zur Kommunikation
gehören (E‑Mail, Chat, IRC, Twitter, soziale Netzwerke, …) sehe ich
die einen enzyklopädischen Korpus kritisch.
Ein berechtigter Einwand! Der Pferdefuß bei einen proprietären Dienst
wie Twitter liegt allerdings in den restriktiven Nutzungsbedingungen.
Obwohl es eine recht reichhaltige API gibt, darf man die Daten längst
nicht beliebig weiterverwerten. Bei Facebook Konsorten ist die
Situation ähnlich.
Von daher wäre es besser, auch hier auf freie Quellen (wie die
Wikipedia) zu setzen. Mit identi.ca gibt es einen populären freien
Microblogging-Dienst, bei dem alle Tweets unter CC-BY (erfordert nur die
Quellennennung) stehen. Die API ist sogar Twitter-kompatibel, wäre für
unsere Zwecke (große Datenmengen) aber zu ineffektiv. Leider gibt es
keinen kompletten Datenbank-Dump wie bei der Wikipedia zum
herunterladen, ich habe aber mal irgendwo gelesen, dass sie den
bereitstellen würden, wenn es daran ein (gut begründetes) Interesse
gäbe. Da auch die Geoinformationen des Browsers ausgelesen werden,
könnte man vielleicht sinnvoll vorfiltern, indem man nur alle Tweets aus
Deutschland benutzt … wobei das Putzen von Tweets eh’ eine
Sisyphosaufgabe wäre. Wenn man alles URLs, Hashtags, englische Wörter
etc. herausfiltern würde, bliebe bei nur 140 Zeilen wohl kaum etwas übrig :/
Da wäre es vielleicht doch sinnvoller, mehrere Mailinglisten- (oder
Usenet-?) Archive anzuzapfen. Es muss ja nicht unbedingt die LKML sein ;).
Viele Grüße,
Dennis-ſ