Florian Janßen writes:
Karl schrieb am 25.03.2011 um 11:07 Uhr:
Was (vermutlich nicht nur) mich interessiert:
Kann eine Anleitung erstellt werden, nach der die einzelnen Schritte so
umsetzen kann, dass aus auf Wikimedia-Software basierende freie Wikis jeder
selber den Textkorpus
On Thursday 21 April 2011 02:03:58 Michael Gattinger wrote:
Am 18.04.2011 00:34, schrieb Arne Babenhauserheide:
Und ist es frei lizensiert? (hatte ich das schon gefragt?)
nach welchen regeln sollte es mindestens lizensiert sein und was
passiert wenn wir es nicht machen?
Das Programm unter
On Thursday 21 April 2011 02:07:17 Michael Gattinger wrote:
Leider scheinen noch nicht so viele mitbekommen zu haben was wir machen.
Kein anderer hat auf die E-Mails vom 17.04.2011 um 23:48 (Kommentar zur
Repräsentativität von Texten; Re: [Neo] Wikipedia-Korpus
selbstgemacht) geantwortet
Wir
Michael Gattinger writes:
Fallen euch derzeit sonst noch Feature ein, die interessant wären?
Hallo Michael,
vielen Dank für die Arbeit an Deinem feinen Projekt zur Aufbereitung von
Wikipediainhalten für die Verwendung in Korpussen.
Da der Wikipedia-XML-Dump (nur pages und articles) bereits
Am 18.04.2011 00:34, schrieb Arne Babenhauserheide:
Freut mich, dass du noch dran bist! Ich hatte schon Sorgen, dass du
aufgegeben
h�ttest, nachdem ich hier so lange nichts von dir geh�rt habe.
bitteschön
Gibt es die Quellen schon im Netz?
Und ist es frei lizensiert? (hatte ich das schon
es bald fertig haben k�nnt!
- Arne
Fallen euch derzeit sonst noch Feature ein, die interessant wären?
Leider scheinen noch nicht so viele mitbekommen zu haben was wir machen.
Kein anderer hat auf die E-Mails vom 17.04.2011 um 23:48 (Kommentar zur
Repräsentativität von Texten; Re: [Neo] Wikipedia
Zum Korpus für die Untersuchungen:
Etliche Pädagogen und Wissenschaftler für Sprachunterricht haben untersucht,
welche geschriebenen und gesprochenen Wörter am wichtigsten sind und am
häufigsten gebraucht werden. Bei meinen Überlegungen für eine Einhand-Tastatur
verwende ich die Ergebnisse von
Hi Wolf-Heider,
On Monday 18 April 2011 12:20:29 Wolf-Heider Rein wrote:
Dieter Zahn
German Key Words
the basic 2000-word vocabulary
(c) 1984
Randall L. Jones
Erwin Tschirner
A Frequency Dictionary of German
(core vocabulary for learners)
(c) 2006
Der Vorteil, diese Quellen zu
Florian Janßen writes:
Der Text liegt dann im Wikisyntax vor. Weiß jemand ob es schon Tools
gibt um aus dem Wikitext normalen Text zu erzeugen?
Karl schrieb am 16.04.2011 um 18:17 Uhr:
In letzter Zeit habe ich mir den Wikipedia-XML-Dump öfter und
genauer angesehen.
Den so sauber geputzt zu
Florian Janßen please.mail at gmx.de writes:
Weiß jemand ob es schon Tools
gibt um aus dem Wikitext normalen Text zu erzeugen?
Nachtrag:
Im Internet fand ich wenige Tools zum Entfernen von MediaWiki-Markup. Wie sie
angewendet werden, das übersteigt meine Kenntnisse.
Hallo, leider sehe ich die E-Mail gerade erst.
Ich bin seit 2 Monaten dabei mir ein Programm zu schreiben, die mir eine
Wikipedia-Source verarbeitet und habe sie fast fertiggestellt.
Ich persönlich habe eine 40GB source von Wikipedia in HTML vorliegen.
Ich muss also
- das HTML entfernen
-
Am Sonntag, 17. April 2011, 16:15:47 schrieb Michael Gattinger:
Ich bin seit 2 Monaten dabei mir ein Programm zu schreiben
Ich bin ungern derjenige, der eine engagierte Arbeit möglicherweise hinfällig
macht. Dennoch wundere ich mich darüber, dass so leichtfertig und
unhinterfragt eine
Am Sonntag, 17. April 2011, 19:44:19 schrieb Karl Köckemann:
Ziel ist es, mehrere Korpora zu verwenden, um
die dadurch unterschiedlichen Ergebnisse vergleichen zu können.
In diesem Fall bin ich sehr dafür, die Wikipedia als EINEN Testkorpus mit
aufzunehmen. Es ist nur wichtig, die Nachteiles
Pascal Hauck schrieb am 17.04.2011 um 22:11 Uhr:
Am Sonntag, 17. April 2011, 19:44:19 schrieb Karl Köckemann:
Ziel ist es, mehrere Korpora zu verwenden, um
die dadurch unterschiedlichen Ergebnisse vergleichen zu können.
In diesem Fall bin ich sehr dafür, die Wikipedia als EINEN Testkorpus
Entschuldigung, ich hatte das Thema nur kurz angerissen um erste
Reaktionen abzuwarten. Da anscheinend Interesse (welcher Art auch immer)
besteht bin ich gerne dazu bereit näher ins Detail zu gehen:
***Gründe für das Programmieren***
Ich hatte den Ticket 250 eröffnet und darauf keine Antwort
Am 17.04.2011 22:23, schrieb Florian Janßen:
Pascal Hauck schrieb am 17.04.2011 um 22:11 Uhr:
Am Sonntag, 17. April 2011, 19:44:19 schrieb Karl Köckemann:
Ziel ist es, mehrere Korpora zu verwenden, um
die dadurch unterschiedlichen Ergebnisse vergleichen zu können.
In diesem Fall bin ich sehr
Hi Michael,
On Sunday 17 April 2011 16:15:47 Michael Gattinger wrote:
Hallo, leider sehe ich die E-Mail gerade erst.
Ich bin seit 2 Monaten dabei mir ein Programm zu schreiben, die mir eine
Wikipedia-Source verarbeitet und habe sie fast fertiggestellt.
Freut mich, dass du noch dran bist! Ich
On Sunday 17 April 2011 23:48:26 Michael Gattinger wrote:
Derzeit haben mein Bruder und ich Urlaub, könnten das Programm also
sofern interesse besteht in 2 Wochen fertigstellen.
Wow, das klingt klasse!
Sowohl die Features als auch, dass ihr es bald fertig haben könnt!
- Arne
signature.asc
Martin Roppelt schrieb am 26.03.2011 um 17:36 Uhr:
Florian Janßen schrieb:
Karl schrieb am 25.03.2011 um 11:07 Uhr:
Florian Janßen writes:
Ist es Dir möglich, mir eine der Textdateien zukommen zu lassen?
Kann ich machen, ich kann eine kleinere Datei erzeugen. Oder eine
Datei je Artikel
Ich grüße euch!
Florian Janßen schrieb:
Martin Roppelt schrieb am 26.03.2011 um 17:36 Uhr:
Florian Janßen schrieb:
Die in der normalen Sprache nötigen Sonderzeichen sind auch nicht
so häufig vorhanden, wie sie sein müssten, da recht oft die
Ersatzzeichen benutzt wurden.
Mit
Hallo allerseits,
Florian Janßen ſchrieb am 24.03.2011 13:51 Uhr:
die Wikipedia Seiten und Artikel vom 01.02.2011 liegen mir als xml-Datei
(gut 8GB) vor und ich ein Skript geschrieben, dass mir die Relevanten
Text-Knoten extrahiert. Vorerst erstelle ich für jeden Artikel einen
eigene Datei.
Dennis Heidsiek schrieb am 25.03.2011 um 12:26 Uhr:
Florian Janßen ſchrieb am 24.03.2011 13:51 Uhr:
die Wikipedia Seiten und Artikel vom 01.02.2011 liegen mir als xml-Datei
(gut 8GB) vor
und nur die Artikel herunterlädt (pages-articles.xml.bz2), sind es
sogar ›nur‹ noch 2.1 GB
Hallo Florian,
Florian Janßen ſchrieb am 25.03.2011 12:41 Uhr:
Genau die habe ich verwendet. Und das sind eben gut 8 GB wenn man sie
auspackt.
Danke für den Hinweis, ich hätte auf weniger ›Ouput‹ (bzw. eine
schlechtere Komprimierung) getippt!
Man könnte das Entpacken aber vermeiden, wenn
Karl schrieb am 25.03.2011 um 11:07 Uhr:
Florian Janßen writes:
Wikipedia-Korpus ist fertig (knapp 9GB in 190 ~50MB Text-Dateien). Die
N-Gramme sind auch fast fertig berechnet.
Du hast meine Hochachtung für die wunderbare Leistung!
Ist es Dir möglich, mir eine der Textdateien zukommen zu
Florian Janßen writes:
Die N-Gramme dauern noch, ich habe einen richtig saftigen Fehler in
meinem Skript:
Ich habe aus „Zufallswort “ nur die Bigramme
»Zu« »fa« »ll« »sw« »or« »t « erstellt, nicht aber die richtigen
»Zu« »uf« »fa« »al« »ll« »ls« »sw« »wo« »or« »rt« »t « erstellt.
Also
Hallo,
die Wikipedia Seiten und Artikel vom 01.02.2011 liegen mir als xml-Datei
(gut 8GB) vor und ich ein Skript geschrieben, dass mir die Relevanten
Text-Knoten extrahiert. Vorerst erstelle ich für jeden Artikel einen
eigene Datei.
Der Text liegt dann im Wikisyntax vor. Weiß jemand ob es schon
Florian Janßen writes:
die Wikipedia Seiten und Artikel vom 01.02.2011 liegen mir als xml-Datei
(gut 8GB) vor und ich ein Skript geschrieben, dass mir die Relevanten
Text-Knoten extrahiert. Vorerst erstelle ich für jeden Artikel einen
eigene Datei.
Puh, das wird viel Arbeit!
Werden so viele
Karl schrieb am 24.03.2011 um 14:56 Uhr:
Florian Janßen writes:
die Wikipedia Seiten und Artikel vom 01.02.2011 liegen mir als xml-Datei
(gut 8GB) vor und ich ein Skript geschrieben, dass mir die Relevanten
Text-Knoten extrahiert. Vorerst erstelle ich für jeden Artikel einen
eigene Datei.
Hallo,
Wikipedia-Korpus ist fertig (knapp 9GB in 190 ~50MB Text-Dateien). Die
N-Gramme sind auch fast fertig berechnet.
Ich bin mal gespannt, wie groß die Unterschiede zum Leipziger Korpus
sind und wie sehr die sich in der Bewertung mit Arnes Optimierer auswirken.
Gruß Florian
29 matches
Mail list logo