[Neo] Identi.ca-Korpus? (was: Re: Wikipedia-Korpus selbstgemacht)

2011-04-19 Diskussionsfäden Dennis Heidsiek

Hallo allerseits,


Pascal Hauck ſchrieb am 17.04.2011 19:06 Uhr:
Da ein Großteil der am PC geschriebenen Texte zur Kommunikation 
gehören (E‑Mail, Chat, IRC, Twitter, soziale Netzwerke, …) sehe ich 
die einen enzyklopädischen Korpus kritisch.


Ein berechtigter Einwand! Der Pferdefuß bei einen proprietären Dienst 
wie Twitter liegt allerdings in den restriktiven Nutzungsbedingungen. 
Obwohl es eine recht reichhaltige API gibt, darf man die Daten längst 
nicht beliebig weiterverwerten. Bei Facebook  Konsorten ist die 
Situation ähnlich.


Von daher wäre es besser, auch hier auf freie Quellen (wie die 
Wikipedia) zu setzen. Mit identi.ca gibt es einen populären freien 
Microblogging-Dienst, bei dem alle Tweets unter CC-BY (erfordert nur die 
Quellennennung) stehen. Die API ist sogar Twitter-kompatibel, wäre für 
unsere Zwecke (große Datenmengen) aber zu ineffektiv. Leider gibt es 
keinen kompletten Datenbank-Dump wie bei der Wikipedia zum 
herunterladen, ich habe aber mal irgendwo gelesen, dass sie den 
bereitstellen würden, wenn es daran ein (gut begründetes) Interesse 
gäbe. Da auch die Geoinformationen des Browsers ausgelesen werden, 
könnte man vielleicht sinnvoll vorfiltern, indem man nur alle Tweets aus 
Deutschland benutzt … wobei das Putzen von Tweets eh’ eine 
Sisyphosaufgabe wäre. Wenn man alles URLs, Hashtags, englische Wörter 
etc. herausfiltern würde, bliebe bei nur 140 Zeilen wohl kaum etwas übrig :/


Da wäre es vielleicht doch sinnvoller, mehrere Mailinglisten- (oder 
Usenet-?) Archive anzuzapfen. Es muss ja nicht unbedingt die LKML sein ;).



Viele Grüße,
Dennis-ſ




Re: [Neo] Identi.ca-Korpus? (was: Re: Wikipedia-Korpus selbstgemacht)

2011-04-19 Diskussionsfäden Arne Babenhauserheide
On Tuesday 19 April 2011 17:54:13 Dennis Heidsiek wrote:
 Von daher wäre es besser, auch hier auf freie Quellen (wie die
 Wikipedia) zu setzen. Mit identi.ca gibt es einen populären freien
 Microblogging-Dienst, bei dem alle Tweets unter CC-BY (erfordert nur die
 Quellennennung) stehen. Die API ist sogar Twitter-kompatibel, wäre für
 unsere Zwecke (große Datenmengen) aber zu ineffektiv. Leider gibt es
 keinen kompletten Datenbank-Dump wie bei der Wikipedia zum
 herunterladen, ich habe aber mal irgendwo gelesen, dass sie den
 bereitstellen würden, wenn es daran ein (gut begründetes) Interesse
 gäbe. Da auch die Geoinformationen des Browsers ausgelesen werden,
 könnte man vielleicht sinnvoll vorfiltern, indem man nur alle Tweets aus
 Deutschland benutzt … wobei das Putzen von Tweets eh’ eine
 Sisyphosaufgabe wäre. Wenn man alles URLs, Hashtags, englische Wörter
 etc. herausfiltern würde, bliebe bei nur 140 Zeilen wohl kaum etwas übrig :/

Obwohl natürlich die Frage ist, ob wir die überhaupt so stark filtern müssen,
wenn wir schon sicherstellen können, dass sie aus Deutschland sind. Hash-tags
und urls müssen raus. Rest ist halt das, was Deutsche Tipper schreiben.

Da Status.Net (das hinter identi.ca läuft) ein Teil von GNU Social ist, habe
ich wenig Zweifel daran, dass die uns die Daten für Neo (freie
Tastaturbelegung) geben würden.

Liebe Grüße,
Arne

signature.asc
Description: This is a digitally signed message part.