Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-22 Diskussionsfäden Karl
Florian Janßen writes: Karl schrieb am 25.03.2011 um 11:07 Uhr: Was (vermutlich nicht nur) mich interessiert: Kann eine Anleitung erstellt werden, nach der die einzelnen Schritte so umsetzen kann, dass aus auf Wikimedia-Software basierende freie Wikis jeder selber den Textkorpus

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-21 Diskussionsfäden Arne Babenhauserheide
On Thursday 21 April 2011 02:03:58 Michael Gattinger wrote: Am 18.04.2011 00:34, schrieb Arne Babenhauserheide: Und ist es frei lizensiert? (hatte ich das schon gefragt?) nach welchen regeln sollte es mindestens lizensiert sein und was passiert wenn wir es nicht machen? Das Programm unter

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-21 Diskussionsfäden Arne Babenhauserheide
On Thursday 21 April 2011 02:07:17 Michael Gattinger wrote: Leider scheinen noch nicht so viele mitbekommen zu haben was wir machen. Kein anderer hat auf die E-Mails vom 17.04.2011 um 23:48 (Kommentar zur Repräsentativität von Texten; Re: [Neo] Wikipedia-Korpus selbstgemacht) geantwortet Wir

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-21 Diskussionsfäden Karl
Michael Gattinger writes: Fallen euch derzeit sonst noch Feature ein, die interessant wären? Hallo Michael, vielen Dank für die Arbeit an Deinem feinen Projekt zur Aufbereitung von Wikipediainhalten für die Verwendung in Korpussen. Da der Wikipedia-XML-Dump (nur pages und articles) bereits

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-20 Diskussionsfäden Michael Gattinger
Am 18.04.2011 00:34, schrieb Arne Babenhauserheide: Freut mich, dass du noch dran bist! Ich hatte schon Sorgen, dass du aufgegeben h�ttest, nachdem ich hier so lange nichts von dir geh�rt habe. bitteschön Gibt es die Quellen schon im Netz? Und ist es frei lizensiert? (hatte ich das schon

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-20 Diskussionsfäden Michael Gattinger
es bald fertig haben k�nnt! - Arne Fallen euch derzeit sonst noch Feature ein, die interessant wären? Leider scheinen noch nicht so viele mitbekommen zu haben was wir machen. Kein anderer hat auf die E-Mails vom 17.04.2011 um 23:48 (Kommentar zur Repräsentativität von Texten; Re: [Neo] Wikipedia

Re: [Neo] Wikipedia-Korpus selbstgemacht (???)

2011-04-18 Diskussionsfäden Wolf-Heider Rein
Zum Korpus für die Untersuchungen: Etliche Pädagogen und Wissenschaftler für Sprachunterricht haben untersucht, welche geschriebenen und gesprochenen Wörter am wichtigsten sind und am häufigsten gebraucht werden. Bei meinen Überlegungen für eine Einhand-Tastatur verwende ich die Ergebnisse von

Re: [Neo] Wikipedia-Korpus selbstgemacht (???)

2011-04-18 Diskussionsfäden Arne Babenhauserheide
Hi Wolf-Heider, On Monday 18 April 2011 12:20:29 Wolf-Heider Rein wrote: Dieter Zahn German Key Words the basic 2000-word vocabulary (c) 1984 Randall L. Jones Erwin Tschirner A Frequency Dictionary of German (core vocabulary for learners) (c) 2006 Der Vorteil, diese Quellen zu

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-17 Diskussionsfäden Karl Köckemann
Florian Janßen writes: Der Text liegt dann im Wikisyntax vor. Weiß jemand ob es schon Tools gibt um aus dem Wikitext normalen Text zu erzeugen? Karl schrieb am 16.04.2011 um 18:17 Uhr: In letzter Zeit habe ich mir den Wikipedia-XML-Dump öfter und genauer angesehen. Den so sauber geputzt zu

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-17 Diskussionsfäden Karl Köckemann
Florian Janßen please.mail at gmx.de writes: Weiß jemand ob es schon Tools gibt um aus dem Wikitext normalen Text zu erzeugen? Nachtrag: Im Internet fand ich wenige Tools zum Entfernen von MediaWiki-Markup. Wie sie angewendet werden, das übersteigt meine Kenntnisse.

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-17 Diskussionsfäden Michael Gattinger
Hallo, leider sehe ich die E-Mail gerade erst. Ich bin seit 2 Monaten dabei mir ein Programm zu schreiben, die mir eine Wikipedia-Source verarbeitet und habe sie fast fertiggestellt. Ich persönlich habe eine 40GB source von Wikipedia in HTML vorliegen. Ich muss also - das HTML entfernen -

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-17 Diskussionsfäden Pascal Hauck
Am Sonntag, 17. April 2011, 16:15:47 schrieb Michael Gattinger: Ich bin seit 2 Monaten dabei mir ein Programm zu schreiben Ich bin ungern derjenige, der eine engagierte Arbeit möglicherweise hinfällig macht. Dennoch wundere ich mich darüber, dass so leichtfertig und unhinterfragt eine

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-17 Diskussionsfäden Karl Köckemann
Pascal Hauck neo at pascalhauck.de writes: Da ein Großteil der am PC geschriebenen Texte zur Kommunikation gehören (E‑Mail, Chat, IRC, Twitter, soziale Netzwerke, …) sehe ich die einen enzyklopädischen Korpus kritisch. Jede darauf aufbauende Optimierung ist zumindest fraglich und kann nicht

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-17 Diskussionsfäden Pascal Hauck
Am Sonntag, 17. April 2011, 19:44:19 schrieb Karl Köckemann: Ziel ist es, mehrere Korpora zu verwenden, um die dadurch unterschiedlichen Ergebnisse vergleichen zu können. In diesem Fall bin ich sehr dafür, die Wikipedia als EINEN Testkorpus mit aufzunehmen. Es ist nur wichtig, die Nachteiles

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-17 Diskussionsfäden Florian Janßen
Pascal Hauck schrieb am 17.04.2011 um 22:11 Uhr: Am Sonntag, 17. April 2011, 19:44:19 schrieb Karl Köckemann: Ziel ist es, mehrere Korpora zu verwenden, um die dadurch unterschiedlichen Ergebnisse vergleichen zu können. In diesem Fall bin ich sehr dafür, die Wikipedia als EINEN Testkorpus

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-17 Diskussionsfäden Michael Gattinger
Entschuldigung, ich hatte das Thema nur kurz angerissen um erste Reaktionen abzuwarten. Da anscheinend Interesse (welcher Art auch immer) besteht bin ich gerne dazu bereit näher ins Detail zu gehen: ***Gründe für das Programmieren*** Ich hatte den Ticket 250 eröffnet und darauf keine Antwort

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-17 Diskussionsfäden Michael Gattinger
Am 17.04.2011 22:23, schrieb Florian Janßen: Pascal Hauck schrieb am 17.04.2011 um 22:11 Uhr: Am Sonntag, 17. April 2011, 19:44:19 schrieb Karl Köckemann: Ziel ist es, mehrere Korpora zu verwenden, um die dadurch unterschiedlichen Ergebnisse vergleichen zu können. In diesem Fall bin ich sehr

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-17 Diskussionsfäden Arne Babenhauserheide
Hi Michael, On Sunday 17 April 2011 16:15:47 Michael Gattinger wrote: Hallo, leider sehe ich die E-Mail gerade erst. Ich bin seit 2 Monaten dabei mir ein Programm zu schreiben, die mir eine Wikipedia-Source verarbeitet und habe sie fast fertiggestellt. Freut mich, dass du noch dran bist! Ich

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-17 Diskussionsfäden Arne Babenhauserheide
On Sunday 17 April 2011 23:48:26 Michael Gattinger wrote: Derzeit haben mein Bruder und ich Urlaub, könnten das Programm also sofern interesse besteht in 2 Wochen fertigstellen. Wow, das klingt klasse! Sowohl die Features als auch, dass ihr es bald fertig haben könnt! - Arne signature.asc

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-03-27 Diskussionsfäden Florian Janßen
Martin Roppelt schrieb am 26.03.2011 um 17:36 Uhr: Florian Janßen schrieb: Karl schrieb am 25.03.2011 um 11:07 Uhr: Florian Janßen writes: Ist es Dir möglich, mir eine der Textdateien zukommen zu lassen? Kann ich machen, ich kann eine kleinere Datei erzeugen. Oder eine Datei je Artikel

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-03-27 Diskussionsfäden Martin Roppelt
Ich grüße euch! Florian Janßen schrieb: Martin Roppelt schrieb am 26.03.2011 um 17:36 Uhr: Florian Janßen schrieb: Die in der normalen Sprache nötigen Sonderzeichen sind auch nicht so häufig vorhanden, wie sie sein müssten, da recht oft die Ersatzzeichen benutzt wurden. Mit

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-03-25 Diskussionsfäden Dennis Heidsiek
Hallo allerseits, Florian Janßen ſchrieb am 24.03.2011 13:51 Uhr: die Wikipedia Seiten und Artikel vom 01.02.2011 liegen mir als xml-Datei (gut 8GB) vor und ich ein Skript geschrieben, dass mir die Relevanten Text-Knoten extrahiert. Vorerst erstelle ich für jeden Artikel einen eigene Datei.

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-03-25 Diskussionsfäden Florian Janßen
Dennis Heidsiek schrieb am 25.03.2011 um 12:26 Uhr: Florian Janßen ſchrieb am 24.03.2011 13:51 Uhr: die Wikipedia Seiten und Artikel vom 01.02.2011 liegen mir als xml-Datei (gut 8GB) vor und nur die Artikel herunterlädt (pages-articles.xml.bz2), sind es sogar ›nur‹ noch  2.1 GB

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-03-25 Diskussionsfäden Dennis Heidsiek
Hallo Florian, Florian Janßen ſchrieb am 25.03.2011 12:41 Uhr: Genau die habe ich verwendet. Und das sind eben gut 8 GB wenn man sie auspackt. Danke für den Hinweis, ich hätte auf weniger ›Ouput‹ (bzw. eine schlechtere Komprimierung) getippt! Man könnte das Entpacken aber vermeiden, wenn

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-03-25 Diskussionsfäden Florian Janßen
Karl schrieb am 25.03.2011 um 11:07 Uhr: Florian Janßen writes: Wikipedia-Korpus ist fertig (knapp 9GB in 190 ~50MB Text-Dateien). Die N-Gramme sind auch fast fertig berechnet. Du hast meine Hochachtung für die wunderbare Leistung! Ist es Dir möglich, mir eine der Textdateien zukommen zu

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-03-25 Diskussionsfäden Karl
Florian Janßen writes: Die N-Gramme dauern noch, ich habe einen richtig saftigen Fehler in meinem Skript: Ich habe aus „Zufallswort “ nur die Bigramme »Zu« »fa« »ll« »sw« »or« »t « erstellt, nicht aber die richtigen »Zu« »uf« »fa« »al« »ll« »ls« »sw« »wo« »or« »rt« »t « erstellt. Also

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-03-24 Diskussionsfäden Karl
Florian Janßen writes: die Wikipedia Seiten und Artikel vom 01.02.2011 liegen mir als xml-Datei (gut 8GB) vor und ich ein Skript geschrieben, dass mir die Relevanten Text-Knoten extrahiert. Vorerst erstelle ich für jeden Artikel einen eigene Datei. Puh, das wird viel Arbeit! Werden so viele

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-03-24 Diskussionsfäden Florian Janßen
Karl schrieb am 24.03.2011 um 14:56 Uhr: Florian Janßen writes: die Wikipedia Seiten und Artikel vom 01.02.2011 liegen mir als xml-Datei (gut 8GB) vor und ich ein Skript geschrieben, dass mir die Relevanten Text-Knoten extrahiert. Vorerst erstelle ich für jeden Artikel einen eigene Datei.

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-03-24 Diskussionsfäden Florian Janßen
Hallo, Wikipedia-Korpus ist fertig (knapp 9GB in 190 ~50MB Text-Dateien). Die N-Gramme sind auch fast fertig berechnet. Ich bin mal gespannt, wie groß die Unterschiede zum Leipziger Korpus sind und wie sehr die sich in der Bewertung mit Arnes Optimierer auswirken. Gruß Florian