Re: [Neo] Wikipedia-Korpus selbstgemacht
Florian Janßen writes: Karl schrieb am 25.03.2011 um 11:07 Uhr: Was (vermutlich nicht nur) mich interessiert: Kann eine Anleitung erstellt werden, nach der die einzelnen Schritte so umsetzen kann, dass aus auf Wikimedia-Software basierende freie Wikis jeder selber den Textkorpus extrahieren kann? Ja, aber ich bin noch nicht ganz mit meiner Methode zufrieden. Ich bin etwas rabiat zu Werke gegangen und habe im Zweifelsfall lieber einen Ausdruck entfernt, statt ihn stehen zu lassen um einen möglichst „sauberen“ Korpus zu erreichen. Auf der anderen Seite habe ich nur manuell den Wikisyntax entfernt, der mir aufgefallen ist. Ich hatte keine Lust mir die ellenlange php-Datei vorzunehmen, in der der ganze Zauber steckt. Hallo Florian, in Deinem Beitrag vom 17 Apr 12:56 steht ein Teil des von Dir verwendeten Skripts. Vielen herzlichen Dank dafür! Als Anfänger mit der Windows PowerShell sowie in der Bearbeitung von XML-Dateien bin ich sehr früh an meine Grenzen gestoßen, die sich auch per Internetrecherche nicht erweiterten. So bekomme ich es weder auf die Reihe, die zu lesende Datei zu öffnen, geschweige denn die Methode ReadToFollowing aufzurufen, die nicht in [System.String] enthalten ist. Zudem muss man sich bei Windows selbst als angemeldeter Adminstrator noch werweißwelche Rechte zuteilen, damit überhaupt etwas geht - aber: welche Rechte brauche ich, um mit PowerShell arbeiten zu können? Oder gibt es unter Windows 7 einen Befehl Bin als Admin angemeldet: Teile mir alle Rechte zu, die es gibt. ;) Für mich sieht das Befassen mit Windows PowerShell vorerst wie undurchdringliches Gestrüpp aus. :-( Wie hast Du es geschafft, in die Materie zu gelangen? Mit netten Grüßen Karl
Re: [Neo] Wikipedia-Korpus selbstgemacht
On Thursday 21 April 2011 02:03:58 Michael Gattinger wrote: Am 18.04.2011 00:34, schrieb Arne Babenhauserheide: Und ist es frei lizensiert? (hatte ich das schon gefragt?) nach welchen regeln sollte es mindestens lizensiert sein und was passiert wenn wir es nicht machen? Das Programm unter GPL oder BSD: Freie Software (Neo ist explizit freie Software - das ist eins der Dinge, die mir bei Neo sehr gut gefallen). Ich verwende für den Optimierer GPL, weil ich mit meiner Arbeit gleichzeitig freie Software fördern will. Ein Korpus unter cc attribution - wenn absolut nötig auch sharealike (aber das ist mit nichts anderem kompatibel, darf also nicht kombiniert weitergegeben werden). Liebe Grüße, Arne -- singing a part of the history of free software: - http://infinite-hands.draketo.de signature.asc Description: This is a digitally signed message part.
Re: [Neo] Wikipedia-Korpus selbstgemacht
On Thursday 21 April 2011 02:07:17 Michael Gattinger wrote: Leider scheinen noch nicht so viele mitbekommen zu haben was wir machen. Kein anderer hat auf die E-Mails vom 17.04.2011 um 23:48 (Kommentar zur Repräsentativität von Texten; Re: [Neo] Wikipedia-Korpus selbstgemacht) geantwortet Wir haben hier viele verschiedene Interessen und viele Leute, die einfach mitlesen. Lass dich davon nicht einschüchtern: Wenn was da ist, haben es meist doch mehr mitbekommen, als man dachte¹. Liebe Grüße, Arne ¹: Das ist normal: Meist gibt es sehr viel mehr Leute, die etwas toll finden, als Leute, die etwas dazu sagen :) signature.asc Description: This is a digitally signed message part.
Re: [Neo] Wikipedia-Korpus selbstgemacht
Michael Gattinger writes: Fallen euch derzeit sonst noch Feature ein, die interessant wären? Hallo Michael, vielen Dank für die Arbeit an Deinem feinen Projekt zur Aufbereitung von Wikipediainhalten für die Verwendung in Korpussen. Da der Wikipedia-XML-Dump (nur pages und articles) bereits knapp 8 GB groß ist, kann er für die Bedürfnisse von Neo großzügig geputzt werden. Mehr als ein GB als Ergebnis wird stets mehr als genug sein. Nicht immer läßt sich einfach entscheiden, was weggeputzt werden soll und was bleiben soll. Was ich versuchen würde, um aus Wikipedia einen Korups für Neo zu extrahieren: 1. Artikel entfernen, die eine Person oder etwas geografisch Benanntes (Stadt, Land, Fluss (oft an deren Kategorie erkennbar)) zum Thema haben. 2. Alle Tabellen entfernen. 3. Alle Aufzählungen entfernen. 4. Alle ref entfernen. 5 .Alle references mitsamt einleitender Überschrift entfernen. 6. Alle Überschriften innerhalb von Artikeln entfernen. 7. Titel übriger Artikel belassen (davor zwei, dahinter ein Zeilenumbruch). 8. Zitatinhalte belassen (in typografische Anführungszeichen stellen). 9. Alle Verweise nach Fallunterscheidung modifizieren bzw. entfernen. 10. Alle Artikel entfernen, die als #redirect bwz. #weiterleitung dienen. 11. Alle Artikel entfernen, die als Liste dienen. 12. Alle Artikel entfernen, die als Liste dienen. 13. sub.../sub- bzw. sub.../sub-Inhalte als hoch- oder tiefgestellte ASCII- oder Unicode-Zeichen darstellen, wenn als solche verfügbar; dabei ASCII bevorzugen, z. B. ²³. 14. Alle MediaWiki-Markups zu Text konvertieren bzw. entfernen. 15. html-Schreibweisen bzw. Entities konvertieren bzw. entfernen. Dabei muss Artikelweise vorgegangen werden, da sich andernfalls massenhaft Fehler durch das Putzen einschleichen können und werden. Unabhängig von den Wikipedia-Artikeln wäre ein zweiter auf dieselbe Weise erstellter Korpus zu den Wikipedia-Diskussionen ein besonders interessanter weiterer Korpus für Neo, da die Diskussionen weitaus mehr von der Sprache enthalten, wie Menschen sie untereinander in den Internetmedien austauschen. Leider sind meine Programmier- und Skriptkenntnisse hoffnungslos veraltet und eingerostet, so dass ich mit den jetzt erforderlichen Umgebungen dafür vorerst nicht zurecht komme. Mit netten Grüßen Karl P. S.: Reguläre Ausdrücke, die ich derzeit einsetze, könnten vielleicht hilfreich sein (falls eine zweite Zeile unter dem RegExp steht, dient sie als Ersetzung). Leider lassen sich wie auch immer verschachtelte Textkomponenten mittels RegExps schlecht aufbereiten. Auch gibt es weitere Schwächen in der Anwendung von RegExps, so dass sie sich allenfalls in Skripten wohlüberlegt einsetzen lassen. zu3. Alle Aufzählungen entfernen. Ab 3 Aufzählungsitems alle außer den ersten und letzten löschen: (?=(^[\*#;][^\n]*?\n))[\*#;]{1,9}[^\n]*?\n(?=(^[\*#;])) zu 4. Alle ref entfernen. [ \t]??ref[^]*?[^]*?/ref zu 5 .Alle references mitsamt einleitender Überschrift entfernen. references-Zeilen mitsamt zwei Überschriften entfernen: [\s]*?==.*?==[\s]*?[\s]*?===.*?===[\s]*?[\s]*?references.*?/[\s]*?\n \n (mehrmals wiederholen) references-Zeilen incl. einer Überschrift entfernen: [\s]*?==.*?==[\s]*?references.*?/[\s]*?\n \n references-Zeilen ohne Überschrift entfernen: [\s]*?references.*?/[\s]*?\n \n zu 6. Alle Überschriften innerhalb von Artikeln entfernen. Alle Überschriftenzeilen mit == entfernen: (=+?)[^=\n]*?\1[\s]*?\n zu 8. Zitatinhalte belassen (in typografische Anführungszeichen stellen). Zitatschreibweise {{Zitat|...}} ändern zu ...: \{\{Zitat\|[']*?([^'][^}\n]*?)[']*?\|[^}\n]*?\}\}\n \1 zu 9. Alle Verweise nach Fallunterscheidung modifizieren bzw. entfernen. Verweise zu Wiki-Artikeln in anderer Sprache entfernen (falls aus der Mailingliste kopiert, dann die Zeilenumbrüche innerhalb dieser einen einzeiligen RegExp entfernen): [\s]*?\[(?:\[(ab|abq|ace|ady|af|ain|ak|aln|als|alt|am|amr|an|ang|anp|ar| arc|arn|aro|arq|ary|arz|as|ast|atv|av|ay|az|azb|ba|ban|bar|bat-smg|bcc| bcl|be|be-x-old|bfq|bg|bh|bi|bjn|bm|bn|bo|bpy|bqi|br|brx|bs|bto|bug|bxr| ca|cbk-zam|cdo|ce|ceb|ch|chi|chn|cho|chr|chy|ckb|ckt|co|cr|crh|cs|csb|cu| cv|cy|da|de|diq|dng|dsb|dv|dz|ee|el|eml|en|enm|eo|es|ese|et|eu|ext|fa|ff| fi|fil|fiu-vro|fj|fo|fr|frp|frr|fur|fy|ga|gag|gan|gd|gl|glk|gn|gom|got| grc|gu|gv|ha|hak|haw|haz|he|hi|hif|hil|ho|hr|hsb|hsn|ht|hu|hy|hz|ia|ibb| id|ie|ig|ii|ik|ilo|inh|io|is|it|iu|ja|jam|jbo|jct|jv|ka|kaa|kab|kac|kbd| kg|ki|kiu|kj|kjh|kk|kl|km|kn|ko|koi|krc|krj|krl|ks|ksh|ku|kum|kv|kw|ky| la|lad|lb|lbe|lez|lg|lhu|li|lij|liv|lld|lmo|ln|lo|loz|lrc|lt|ltg|lus|lv| lzz|mad|mai|map-bms|maz|mdf|mfe|mg|mh|mhr|mi|min|mk|ml|mn|mnc|mr|mrj|ms| mt|mwl|mww|my|myv|mzn|na|nah|nap|nds|nds-nl|ne|new|ng|niu|njo|nl|nn|no| non|nov|nrm|nso|nv|ny|oc|om|or|os|ota|ote|otk|pa|pag|pam|pap|pcd|pdc|pdt| pes|pfl|pi|pih|pko|pl|pms|pnb|pnt|pny\[4\]|ppl|prs|ps|pt|qu|rar|rif|rm| rmy|rn|ro|roa-rup|roa-tara|rtm|ru|rue|ruq|rw|ryu|sa|sah|sc|scn|sco|sd|sdc|
Re: [Neo] Wikipedia-Korpus selbstgemacht
Am 18.04.2011 00:34, schrieb Arne Babenhauserheide: Freut mich, dass du noch dran bist! Ich hatte schon Sorgen, dass du aufgegeben h�ttest, nachdem ich hier so lange nichts von dir geh�rt habe. bitteschön Gibt es die Quellen schon im Netz? Und ist es frei lizensiert? (hatte ich das schon gefragt?) nach welchen regeln sollte es mindestens lizensiert sein und was passiert wenn wir es nicht machen?
Re: [Neo] Wikipedia-Korpus selbstgemacht
Am 18.04.2011 02:19, schrieb Arne Babenhauserheide: On Sunday 17 April 2011 23:48:26 Michael Gattinger wrote: Derzeit haben mein Bruder und ich Urlaub, k�nnten das Programm also sofern interesse besteht in 2 Wochen fertigstellen. Wow, das klingt klasse! Sowohl die Features als auch, dass ihr es bald fertig haben k�nnt! - Arne Fallen euch derzeit sonst noch Feature ein, die interessant wären? Leider scheinen noch nicht so viele mitbekommen zu haben was wir machen. Kein anderer hat auf die E-Mails vom 17.04.2011 um 23:48 (Kommentar zur Repräsentativität von Texten; Re: [Neo] Wikipedia-Korpus selbstgemacht) geantwortet :-(
Re: [Neo] Wikipedia-Korpus selbstgemacht (???)
Zum Korpus für die Untersuchungen: Etliche Pädagogen und Wissenschaftler für Sprachunterricht haben untersucht, welche geschriebenen und gesprochenen Wörter am wichtigsten sind und am häufigsten gebraucht werden. Bei meinen Überlegungen für eine Einhand-Tastatur verwende ich die Ergebnisse von zwei Büchern: Dieter Zahn German Key Words the basic 2000-word vocabulary (c) 1984 Randall L. Jones Erwin Tschirner A Frequency Dictionary of German (core vocabulary for learners) (c) 2006 Der Vorteil, diese Quellen zu verwenden: Sie sind von Fachleuten für die Sprache zusammengestellt, die mit pädagogischer Erfahrung überlegt haben, welche Texte sie der Häufigkeitsstatistik zu Grunde legen wollen. Ihre Ranglisten bilden deshalb eine solide Basis, auf die ich mich beziehen kann, wenn jemand an der Auswahl der Wörter Kritik üben möchte. Darüber hinaus verwende ich die Rangliste der deutschen Wortformen DeReWo vom Institut für Deutsche Sprache in Mannheim, auf das ich vor langer Zeit als Mitleser bei NEO aufmerksam wurde. Das DEUTSCHE REFERENZKORPUS bildet mit über drei Milliarden Wörtern die weltweit größte Sammlung elektronischer Korpora mit geschriebenen deutschsprachigen Texten aus Gegenwart und neuerer Vergangenheit, es enthält belletristische, wissenschaftliche und populärwissenschaftliche Texte, eine große Zahl von Zeitungstexten sowie eine breite Palette weiterer Textarten, es wird im Hinblick auf Umfang, Variabilität und Qualität kontinuierlich weiterentwickelt, und ist zu einem großen Teil kostenlos über die Recherchesoftware COSMAS II zugänglich. DEREKO (2009): DEUTSCHES REFERENZKORPUS: http://www.ids-mannheim.de Ein Gruß von einem Mitleser aus Pforzheim Wolf-Heider Rein
Re: [Neo] Wikipedia-Korpus selbstgemacht (???)
Hi Wolf-Heider, On Monday 18 April 2011 12:20:29 Wolf-Heider Rein wrote: Dieter Zahn German Key Words the basic 2000-word vocabulary (c) 1984 Randall L. Jones Erwin Tschirner A Frequency Dictionary of German (core vocabulary for learners) (c) 2006 Der Vorteil, diese Quellen zu verwenden: Sie sind von Fachleuten für die Sprache zusammengestellt, die mit pädagogischer Erfahrung überlegt haben, welche Texte sie der Häufigkeitsstatistik zu Grunde legen wollen. Ihre Ranglisten bilden deshalb eine solide Basis, auf die ich mich beziehen kann, wenn jemand an der Auswahl der Wörter Kritik üben möchte. Haben die nGramme, die wir verwenden dürfen? Rein nichtkommerzielle Nutzung genügt leider nicht, denn wir wollen ja, dass die Tastaturbelegung später kommerziell genutzt werden kann. Darüber hinaus verwende ich die Rangliste der deutschen Wortformen DeReWo vom Institut für Deutsche Sprache in Mannheim, auf das ich vor langer Zeit als Mitleser bei NEO aufmerksam wurde. Das DEUTSCHE REFERENZKORPUS bildet mit über drei Milliarden Wörtern die weltweit größte Sammlung elektronischer Korpora mit geschriebenen deutschsprachigen Texten aus Gegenwart und neuerer Vergangenheit, es enthält belletristische, wissenschaftliche und populärwissenschaftliche Texte, eine große Zahl von Zeitungstexten sowie eine breite Palette weiterer Textarten, es wird im Hinblick auf Umfang, Variabilität und Qualität kontinuierlich weiterentwickelt, und ist zu einem großen Teil kostenlos über die Recherchesoftware COSMAS II zugänglich. DEREKO (2009): DEUTSCHES REFERENZKORPUS: http://www.ids-mannheim.de Das klingt toll, aber: „Durch juristische Vereinbarungen mit Verlagen, Zeitungsredaktionen und Autoren war und ist das IDS in der Lage, urheberrechtlich abgesichertes Textmaterial derart zu beschaffen, dass alle Korpora IDS-intern und Teile dieser Korpora weltweit öffentlich genutzt werden können, und zwar ausschließlich zu wissenschaftlichen, nichtkommerziellen Zwecken.“ :( Ob das jemals auf eine Tastatur gedruckt werden darf ist leider unklar. Urheberrecht ist leider zu einer undurchdringlichen und für Projekte gefährlichen Monstrosität geworden :( Liebe Grüße, Arne signature.asc Description: This is a digitally signed message part.
Re: [Neo] Wikipedia-Korpus selbstgemacht
Florian Janßen writes: Der Text liegt dann im Wikisyntax vor. Weiß jemand ob es schon Tools gibt um aus dem Wikitext normalen Text zu erzeugen? Karl schrieb am 16.04.2011 um 18:17 Uhr: In letzter Zeit habe ich mir den Wikipedia-XML-Dump öfter und genauer angesehen. Den so sauber geputzt zu bekommen, wie ich es für notwendig erachte, halte ich jetzt für noch schwieriger, als wonach es auf den ersten Blick ausschaut. (@Florian: Kannst Du mal die Skripte vorstellen - egal auf welchem Stand -, mit denen Du das Putzen angegangen bist. Das könnte enorm weiter helfen (Brett_vorm_Kopf_hab).) Manche Markups kommen verschachtelt vor, manche sogar fehlerhaft, was für Reguläre Ausdrücke grundsätzlich schwierig ist. Ja, es gibt einige die kaputt, oder sehr verschachtelt sind. Teilweise wird auch noch HTML verwendet (was ich bisher nur teilweise erfassen kann). Meine zum Putzen verwendeten Ausdrücke sind habe ich am Ende angehängt. Es gibt noch einiges zu verbessern, aber im Bezug auf die relative Häufigkeit der Buchstaben-N-Gramme ist es eher zu vernachlässigen. Bei N-Grammen mit Sonderzeichen dürfte es allerdings noch etwas auffallen. Florian Janßen schrieb am 17.04.2011 um 13:50 Uhr: Mit welchem Tool packst du die 8GB-Datei an? Die teils aus anderen Themen stammenden Zitate seien in diesem Thema zusammengefasst aufgegriffen. Die 8-GB-Datei habe ich ebenfalls gesplittet, weil mein Rechner damit so sehr an seine technischen Grenzen stößt, dass die Bearbeitung als Einzeldatei leider zu zeitaufwendig wurde. Unter Ubuntu-Linux wurde die Datei mit dem Befehl namens split in 12 gleich große Dateien gesplittet. Danach wurde in jeder Datei nach dem letzten \page gesucht und der daran anschließende restliche Text bis zum Dateiende ausgeschnitten und an den anfang der nächsten Datei eingefügt. Dadurch enthalten alle Dateien vollständige Artikel, wodurch auf alle Dateien dieselben Funktionen zum Putzen anwendbar sind. Als Editor erwies sich die Windowsversion von UltraEdit als der einzige gefundene Editor, der in der Lage ist, enorm große Dateien in vertretbar kurzer Zeit in der von uns gewünschten Weise zu bearbeiten. UltraEdit kann auch die 8-GB-Datei verkraften, wozu aber der Rechner bestenfalls mit z. B. 16 GB RAM und einer SSD ausgestattet sein sollte - was bei dem mir zur Verfügung stehenden Rechner nicht gegeben ist. Auf dem zur Verfügung stehenden Rechner sind zwei Windowsprogramme, mit denen sich Regulären Ausdrücke allerbestens testen und anwenden lassen: RegexBuddy zum Testen von Regulären Ausdrücken und PowerGREP zum Anwenden von Regulären Ausdrücken. Bislang habe ich also noch keine Skripte geschrieben, sondern erst einmal nur reguläre Ausdrücke ausprobiert. Dabei wurden Schwachpunkte in der 8-GB-Datei aufgedeckt - und: Meine MediaWiki-Markup-Kenntnisse sind zu gering, so dass es mir schwer fällt, zu entscheiden, was in welcher Reihenfolge wie geputzt werden sollte. Worin ich mir inzwischen ziemlich sicher bin: Alle Überschriften innerhalb eines Artikels sollten entfernt werden, da sie aufgrund des lexikalischen Charakters viel zu häufig vorkommen. Aufgrund der Größe des Korups können wir uns das erlauben. Die XML-Struktur des Textes packe ich zunächst mal nur teilweise an, da manche Befehle für das weitere Putzen notwendig sein könnten. Bei den Regulären Ausdrücken bin ich mir recht sicher, dass sie zu einem vertretbar guten Ergebnis führen sollen: Sprachkürzelhaltige interWikis löschen (Nebenwirkung: Einträge, die [ oder ] darin verschachtelt haben, bleiben stehen)(Beim Kopieren aus der Mailingliste die Zeilenumbrüche entfernen, d. h. die Regex steht in einer langen Zeile) \n??\[(?:\[(ab|abq|ace|ady|af|ain|ak|aln|als|alt|am|amr|an|ang|anp|ar|arc|arn| aro|arq|ary|arz|as|ast|atv|av|ay|az|azb|ba|ban|bar|bat-smg|bcc|bcl|be|be-x-old| bfq|bg|bh|bi|bjn|bm|bn|bo|bpy|bqi|br|brx|bs|bto|bug|bxr|ca|cbk-zam|cdo|ce|ceb| ch|chi|chn|cho|chr|chy|ckb|ckt|co|cr|crh|cs|csb|cu|cv|cy|da|de|diq|dng|dsb|dv| dz|ee|el|eml|en|enm|eo|es|ese|et|eu|ext|fa|ff|fi|fil|fiu-vro|fj|fo|fr|frp|frr| fur|fy|ga|gag|gan|gd|gl|glk|gn|gom|got|grc|gu|gv|ha|hak|haw|haz|he|hi|hif|hil| ho|hr|hsb|hsn|ht|hu|hy|hz|ia|ibb|id|ie|ig|ii|ik|ilo|inh|io|is|it|iu|ja|jam|jbo| jct|jv|ka|kaa|kab|kac|kbd|kg|ki|kiu|kj|kjh|kk|kl|km|kn|ko|koi|krc|krj|krl|ks| ksh|ku|kum|kv|kw|ky|la|lad|lb|lbe|lez|lg|lhu|li|lij|liv|lld|lmo|ln|lo|loz|lrc| lt|ltg|lus|lv|lzz|mad|mai|map-bms|maz|mdf|mfe|mg|mh|mhr|mi|min|mk|ml|mn|mnc|mr| mrj|ms|mt|mwl|mww|my|myv|mzn|na|nah|nap|nds|nds-nl|ne|new|ng|niu|njo|nl|nn|no| non|nov|nrm|nso|nv|ny|oc|om|or|os|ota|ote|otk|pa|pag|pam|pap|pcd|pdc|pdt|pes| pfl|pi|pih|pko|pl|pms|pnb|pnt|pny \[4\]|ppl|prs|ps|pt|qu|rar|rif|rm|rmy|rn|ro|roa-rup|roa-tara|rtm|ru|rue|ruq|rw| ryu|sa|sah|sc|scn|sco|sd|sdc|se|sei|sg|sgc|sh|shi|si|simple|sk|skr|sl|sli|slr| sm|sma|sn|so|sq|sr|srn|ss|st|stq|su|sv|sw|swg|szl|ta|tcy|te|tet|tg|th|ti|tk|tl| tn|to|tpi|tr|trp|ts|tsd|tt|tum|tvl|tw|ty|tyv|tzm|udm|ug|uk|ur|uun|uz|ve|vec|
Re: [Neo] Wikipedia-Korpus selbstgemacht
Florian Janßen please.mail at gmx.de writes: Weiß jemand ob es schon Tools gibt um aus dem Wikitext normalen Text zu erzeugen? Nachtrag: Im Internet fand ich wenige Tools zum Entfernen von MediaWiki-Markup. Wie sie angewendet werden, das übersteigt meine Kenntnisse. http://toolserver.org/~magnus/wiki2xml/w2x.php basiert auf: http://svn.wikimedia.org/viewvc/mediawiki/trunk/parsers/wiki2xml/php/xml2txt.php?revision=71620view=markup Hier ein anderes Tool: https://github.com/rdblue/marker Hier ein Hinweis auf ein Tool: http://code.google.com/p/gwtwiki/wiki/Mediawiki2PlainText Mit netten Grüßen Karl
Re: [Neo] Wikipedia-Korpus selbstgemacht
Hallo, leider sehe ich die E-Mail gerade erst. Ich bin seit 2 Monaten dabei mir ein Programm zu schreiben, die mir eine Wikipedia-Source verarbeitet und habe sie fast fertiggestellt. Ich persönlich habe eine 40GB source von Wikipedia in HTML vorliegen. Ich muss also - das HTML entfernen - Entities übersetzen - Wiederholende Sachen, wie [Bearbeiten] oder -- Nickname HH:MM, DD. MMM. (CEST) entfernen Die Einzelteile zu HTML entfernen und Entities übersetzen liegen mir bereits vor und müssen nurnoch zusammengefügt werden. Übrigends soll das Programm noch mehr können, weshalb es noch nicht fertig ist, die restlichen Programmteile sind aber auch schon quasi Fertig und müssen nurnoch zusammengebastelt werden damit alles zusammen harmoniert. Weitere Informationen auf Anfrage. Mit freundlichen Grüßen Michael Gattinger Am 24.03.2011 13:51, schrieb Florian Janßen: Hallo, die Wikipedia Seiten und Artikel vom 01.02.2011 liegen mir als xml-Datei (gut 8GB) vor und ich ein Skript geschrieben, dass mir die Relevanten Text-Knoten extrahiert. Vorerst erstelle ich für jeden Artikel einen eigene Datei. Der Text liegt dann im Wikisyntax vor. Weiß jemand ob es schon Tools gibt um aus dem Wikitext normalen Text zu erzeugen? Gruß Florian
Re: [Neo] Wikipedia-Korpus selbstgemacht
Am Sonntag, 17. April 2011, 16:15:47 schrieb Michael Gattinger: Ich bin seit 2 Monaten dabei mir ein Programm zu schreiben Ich bin ungern derjenige, der eine engagierte Arbeit möglicherweise hinfällig macht. Dennoch wundere ich mich darüber, dass so leichtfertig und unhinterfragt eine Enzyklopädie als sinnvoller Korpus erachtet wird. Neo2 ist bereits eine gute Tastatur, bei einer zukünftigen Neo3 darf man durchaus von „hochoptimiert“ sprechen. Eine so weitgehende Optimierung setzt natürlich voraus, dass sämtliche Zwischenschritte – insbesondere die Wahl des Korpus – den gleichen hohen Ansprüchen genügen. Genau dies sehe ich bei der Wikipedia für unsere Zwecke nicht geben! Natürlich ist die umfangreiche, freie und leicht zugängliche Textmenge verführerisch – jedoch deckt sich der lexikalische Schreibstil nicht mit dem eines gängigen Anwenders. Das vermutlich einfachste und zugleich einsichtigest Beispiel ist das Wort „ich“. Wärend fast keine E‑Mail ohne dieses Wort auskommt, hat ein Stichprobentest in nur einem von 10 Wikipedia‑Artikeln einen Treffer egeben – und zwar in einem Zitat. Gleiches gilt für andere Wörter: du, wir, uns, mir, mich, sich, … Da ein Großteil der am PC geschriebenen Texte zur Kommunikation gehören (E‑Mail, Chat, IRC, Twitter, soziale Netzwerke, …) sehe ich die einen enzyklopädischen Korpus kritisch. Jede darauf aufbauende Optimierung ist zumindest fraglich und kann nicht zweifelsfrei behaupten, die selbst gesteckten hohen Ansprüche zu erfüllen. Skeptische Grüße, Pascal
Re: [Neo] Wikipedia-Korpus selbstgemacht
Am Sonntag, 17. April 2011, 19:44:19 schrieb Karl Köckemann: Ziel ist es, mehrere Korpora zu verwenden, um die dadurch unterschiedlichen Ergebnisse vergleichen zu können. In diesem Fall bin ich sehr dafür, die Wikipedia als EINEN Testkorpus mit aufzunehmen. Es ist nur wichtig, die Nachteiles dieses Korpus zu kennen – aber das gilt für andere natürlich ebenso. Gruß, Pascal
Re: [Neo] Wikipedia-Korpus selbstgemacht
Pascal Hauck schrieb am 17.04.2011 um 22:11 Uhr: Am Sonntag, 17. April 2011, 19:44:19 schrieb Karl Köckemann: Ziel ist es, mehrere Korpora zu verwenden, um die dadurch unterschiedlichen Ergebnisse vergleichen zu können. In diesem Fall bin ich sehr dafür, die Wikipedia als EINEN Testkorpus mit aufzunehmen. Es ist nur wichtig, die Nachteiles dieses Korpus zu kennen – aber das gilt für andere natürlich ebenso. Natürlich ist Wikipedia kein Referenzkorpus, aber er liefert eine Menge freien Text in halbwegs aktueller deutscher Sprache. Ich habe vor kurzem angefangen diese Mailingliste auszuwerten, da dürfte das Trigramm „Neo“ allerdings etwas zu häufig vorkommen ;) Gruß Florian signature.asc Description: OpenPGP digital signature
Re: [Neo] Wikipedia-Korpus selbstgemacht
Entschuldigung, ich hatte das Thema nur kurz angerissen um erste Reaktionen abzuwarten. Da anscheinend Interesse (welcher Art auch immer) besteht bin ich gerne dazu bereit näher ins Detail zu gehen: ***Gründe für das Programmieren*** Ich hatte den Ticket 250 eröffnet und darauf keine Antwort erhalten. http://wiki.neo-layout.org/ticket/250 http://lists.neo-layout.org/pipermail/diskussion/2011-February/018339.html Deswegen ging ich von desinteresse aus und fing an ein (bereits vor Jahren geschriebenes) Wörter-Zahl-Programm meines Bruder umzuschreiben, sodass es Wörter zählt und Wörter für Lektionen ausgibt, je nach Lernreihenfolge der Buchstaben, siehe weiteres Ticket 250. Damals geplant: (enit)(ar)(ud)(os)(ch)(lg)(Großschreibung)(pmPM)(wkWK)(zbZB)(vfVF)(ßj?J)(yüYÜ)(öäÖÄ)(xqXQ) Heute veraltet. Nachdem ich zu Anfang wild irgendwoher Texte kopierte merkte ich irgendwann, dass das so nix wird und suchte nach größeren Quellen. So fand ich mit dem Project-Gutenberg http://www.gutenberg.org/wiki/Main_Page eine Quelle von UTF8 Büchern, leider, wie ich feststellte meist von vor 1930. Zusätzlich fand ich nach endloser sucherrei eine 40GB HTML Version von Wikipedia (Artikel, Diskussionen, Benutzerseiten, Bilder etc.). Wegen der Wikipedia-Quelle wollte ich mein Programm also um HTML Entitifilter sowie Wikipedia-Spezifische Filter ([Bearbeiten], Signaturen) erweitern. Nach einem Gespräch mit Arne Babenh* stellte ich fest, dass er auf der Suche nach neuen Korpora ist, möglichst vielfältig. Deswegen wollte ich dann ein allgemeines Programm entwickeln, dass man immer wieder verwenden kann (Mit GUI). ***Programmspezifikation kurz und knapp*** Möglichkeit zum a) UTF-8-kompatiblem arbeiten b) modularen bedienen c) speichern des (der) Ergebnisse(s) nach jedem der optionalen Zwischenschritte: 1) filtern von HTML in Text 2) übersetzen von Entities (nbsp; etc) in UTF-8 Zeichen 3) filtern von Wiki-Spezifischen besonderheiten {[Bearbeiten] , -- Nickname HH:MM, DD. MMM. (CEST)} 4.1) zählen von n-Grammen (Ausgabe absolut, prozentual, etc.) 4.2) zählen von Wörtern 5.1) mischen von Ergebnissen mehrer n-Gramm-Zählungen; näheres siehe unten 5.2) ausgeben von Wörtern in Lernreihenfolge; näheres siehe unten ***Erklärungen zur Programmspezifikation*** Modularer Aufbau: Der Nutzer kann bei jedem Programmlauf entscheiden welche Funktionen er nutzen möchte und welche nicht. Z.b. kann er (wenn er bereits textbasierte Vorlagen hat) das HTML-, Entitie- und Wikipedia-Filtern (Nummer 1 bis 3) rauslassen und direkt mit dem zählen von n-Grammen anfangen und auch direkt danach aufhören. -- # * KOMMENTAR ZUR REPRÄSENTATIVITÄT VON TEXTEN * # Siehe E-Mail Kommentar zur Repräsentativität von Texten vom 17.04.2011 um 23:48 --- 5.1) und 4.1): Wir haben nach 4.1) die n-Gramm-Statistik prozentual vorliegen. Nun machen wir dies mit verschiedenen Textgattungen ({Lexika, Diskussion, E-Mails, ...}) verschiedener Sprachen ({Deutschen, Englischen, Programmiersprachen, ...}). Dann können wir diese Prozentwerte nach belieben miteinander verrechnen. So könnten wir sagen: Es wird 80% deutsch geschrieben und 20% englisch. Oder komplizierter (nur beispielhaft) 10% deutsche Lexika, 20% deutsche E-Mails, 30% deutsche Diskussionen, 10% Programmierung, 5% englische Lexika, 10% englische E-Mails, 15% englische Diskussionen; Summe: 100%. 5.2) und 4.2) Wenn wir Wörter nach deren Häufigkeit sortiert vorliegen haben können wir zu einem beliebigen Tastaturlayout uns eine Lernreihenfolge überlegen, in welcher wir die Buchstaben lernen wollen. Z.b. (enit)(ar)(ud)(os)(ch)(lg) usw. Nun geben in Liste eins Wörter aus, die mit {e,n,i,t} geschrieben werden können. Dann geben wir eine Liste zwei mit Wörtern aus, die mit {e,n,i,t,a,r} geschrieben werden könne, wobei a oder r mindestens einmal vorkommen müssen. usw. usf. Daraus kann man dann Lernlektionen machen. Derzeit haben mein Bruder und ich Urlaub, könnten das Programm also sofern interesse besteht in 2 Wochen fertigstellen. Weitere Vorschläge zu Dingen, die das Programm können soll könnt ihr natürlich auch gerne liefern. Mit freundlichen Grüßen Michael Gattinger Am 17.04.2011 19:06, schrieb Pascal Hauck: Am Sonntag, 17. April 2011, 16:15:47 schrieb Michael Gattinger: Ich bin seit 2 Monaten dabei mir ein Programm zu schreiben Ich bin ungern derjenige, der eine engagierte Arbeit möglicherweise hinfällig macht. Dennoch wundere ich mich darüber, dass so leichtfertig und unhinterfragt eine Enzyklopädie als sinnvoller Korpus erachtet wird. Neo2 ist bereits eine gute Tastatur, bei einer zukünftigen Neo3 darf man durchaus von „hochoptimiert“ sprechen. Eine so weitgehende Optimierung setzt natürlich voraus, dass sämtliche
Re: [Neo] Wikipedia-Korpus selbstgemacht
Am 17.04.2011 22:23, schrieb Florian Janßen: Pascal Hauck schrieb am 17.04.2011 um 22:11 Uhr: Am Sonntag, 17. April 2011, 19:44:19 schrieb Karl Köckemann: Ziel ist es, mehrere Korpora zu verwenden, um die dadurch unterschiedlichen Ergebnisse vergleichen zu können. In diesem Fall bin ich sehr dafür, die Wikipedia als EINEN Testkorpus mit aufzunehmen. Es ist nur wichtig, die Nachteiles dieses Korpus zu kennen – aber das gilt für andere natürlich ebenso. Natürlich ist Wikipedia kein Referenzkorpus, aber er liefert eine Menge freien Text in halbwegs aktueller deutscher Sprache. Ich habe vor kurzem angefangen diese Mailingliste auszuwerten, da dürfte das Trigramm „Neo“ allerdings etwas zu häufig vorkommen ;) Gruß Florian Nicht nur Neo ... Auch Wörter wie Tastatur, Taste, Buchstabe, n-Gramm usw. sind hier völlig übervorteilt.
Re: [Neo] Wikipedia-Korpus selbstgemacht
Hi Michael, On Sunday 17 April 2011 16:15:47 Michael Gattinger wrote: Hallo, leider sehe ich die E-Mail gerade erst. Ich bin seit 2 Monaten dabei mir ein Programm zu schreiben, die mir eine Wikipedia-Source verarbeitet und habe sie fast fertiggestellt. Freut mich, dass du noch dran bist! Ich hatte schon Sorgen, dass du aufgegeben hättest, nachdem ich hier so lange nichts von dir gehört habe. Übrigends soll das Programm noch mehr können, weshalb es noch nicht fertig ist, die restlichen Programmteile sind aber auch schon quasi Fertig und müssen nurnoch zusammengebastelt werden damit alles zusammen harmoniert. Weitere Informationen auf Anfrage. Gibt es die Quellen schon im Netz? Und ist es frei lizensiert? (hatte ich das schon gefragt?) Liebe Grüße, Arne -- singing a part of the history of free software: - http://infinite-hands.draketo.de signature.asc Description: This is a digitally signed message part.
Re: [Neo] Wikipedia-Korpus selbstgemacht
On Sunday 17 April 2011 23:48:26 Michael Gattinger wrote: Derzeit haben mein Bruder und ich Urlaub, könnten das Programm also sofern interesse besteht in 2 Wochen fertigstellen. Wow, das klingt klasse! Sowohl die Features als auch, dass ihr es bald fertig haben könnt! - Arne signature.asc Description: This is a digitally signed message part.
Re: [Neo] Wikipedia-Korpus selbstgemacht
Martin Roppelt schrieb am 26.03.2011 um 17:36 Uhr: Florian Janßen schrieb: Karl schrieb am 25.03.2011 um 11:07 Uhr: Florian Janßen writes: Ist es Dir möglich, mir eine der Textdateien zukommen zu lassen? Kann ich machen, ich kann eine kleinere Datei erzeugen. Oder eine Datei je Artikel und dir ein paar schicken. Für mich bitte auch. Ich kenne mich als Hobby-Wikipedianer ein bisschen damit aus (vielleicht untertrieben, weiß ich nicht ;)) und würde mir das Ergebnis gerne ansehen. Irgendwelche Lieblings-Artikel? Ansonsten fische ich ein Stück aus der Mitte. Die in der normalen Sprache nötigen Sonderzeichen sind auch nicht so häufig vorhanden, wie sie sein müssten, da recht oft die Ersatzzeichen benutzt wurden. Das würde ich mir gerne auch noch einmal genauer anschauen. „“ werden recht häufig verwendet, aber z.B. geschützte Leerzeichen oder echte Gedankenstriche findet man kaum. Außerdem sind die Sonderzeichen für html und Wikitext unterrepräsentiert, da ich deren Spuren ja aus dem Text entfernt habe. Das ist doch auch gut so, schließlich wollen wir ja auf allgemeinen Text und nicht auf Wiki(pedia)-Bearbeiten optimieren. Ja, klar, aber die allgemeinen Schreibarbeiten schließen zu einem (sehr kleinen) Teil auch das Bearbeiten von HTML und Wikitext mit ein. Aber ich denke mittlerweile, dass der Anteil so minimal ist, dass es sinnvoller sein kann, diese Sonderfälle zu vernachlässigen und nur auf Worstcase-Fälle zu prüfen. Ich denke, ich kann da ein bisschen was beitragen. Vielleicht hast du zum Vergleich noch Dateien, einmal mit mehr und einmal mit weniger MediaWiki-Syntax? Ich habe nur ganz und garnicht. Damit wir zu rabiates Vorgehen ausschließen können. Ich habe beispielsweise alle Tabellen rausgeschmissen ;) Die N-Gramme dauern noch, ich habe einen richtig saftigen Fehler in meinem Skript[…] Running gag ;) ? Ich habe nach dem Abarbeiten des eingelesenen Bi- und Trigrammes eben weiterlesen lassen, was natürlich falsch ist. Ich hätte – und tue es auch jetzt – die Startposition um 1 erhöhen müssen um die nächsten Zeichen einzulesen. Gruß Florian signature.asc Description: OpenPGP digital signature
Re: [Neo] Wikipedia-Korpus selbstgemacht
Ich grüße euch! Florian Janßen schrieb: Martin Roppelt schrieb am 26.03.2011 um 17:36 Uhr: Florian Janßen schrieb: Die in der normalen Sprache nötigen Sonderzeichen sind auch nicht so häufig vorhanden, wie sie sein müssten, da recht oft die Ersatzzeichen benutzt wurden. Mit Ersatzzeichen meinst du '//- statt ’/„“/– etc.? Oder meinst du nbsp;, ndash; etc.? Das würde ich mir gerne auch noch einmal genauer anschauen. „“ werden recht häufig verwendet, aber z.B. geschützte Leerzeichen oder echte Gedankenstriche findet man kaum. (Normalbreite) geschützte Leerzeichen sind aus verschiedenen technischen Gründen (hab ich schon wieder halb vergessen) nicht möglich. Zum Beispiel wandelt die mein Browser Konqueror beim Abspeichern automatisch in normale Leerzeichen um. Daneben gibt es auch noch andere Inkompatibilitäten. Dafür wird gerne der Ersatz „nbsp;“ verwendet. Auch für Fälle, wo eigentlich ein schmales geschütztes Leerzeichen angebracht wäre (das ist ebenfalls technisch noch nicht möglich). Dazu gibt es in der Wikipedia ein paar Diskussionen, ich mag sie aber jetzt nicht raussuchen. Gerade Anführungszeichen treffe ich zum Teil auch noch an, das Bewusstsein, diese en passant in typografische zu korrigieren ist aber bei der Autorenschaft, denke ich, vorhanden. Ich habe schon das Gefühl, dass – zumindest in den Artikeln – Halbgeviertstriche als Gedankenstriche verwendet werden. Ich treffe zwar hin und wieder Artikel, bei denen das nicht der Fall ist, aber die sind imho selten. Manchmal trifft man auch noch ndash;, aber das halte ich persönlich für schlechten Stil. Außerdem sind die Sonderzeichen für html und Wikitext unterrepräsentiert, da ich deren Spuren ja aus dem Text entfernt habe. Das ist doch auch gut so, schließlich wollen wir ja auf allgemeinen Text und nicht auf Wiki(pedia)-Bearbeiten optimieren. Ja, klar, aber die allgemeinen Schreibarbeiten schließen zu einem (sehr kleinen) Teil auch das Bearbeiten von HTML und Wikitext mit ein. Aber ich denke mittlerweile, dass der Anteil so minimal ist, dass es sinnvoller sein kann, diese Sonderfälle zu vernachlässigen und nur auf Worstcase-Fälle zu prüfen. Genau, man muss nicht darauf mitoptimieren (zuviele Parameter verdurchschnittlichen das Ergebnis zu stark), aber es sollte auch nicht schlecht damit schreibbar sein. Die N-Gramme dauern noch, ich habe einen richtig saftigen Fehler in meinem Skript[…] Running gag ;) ? Ich habe nach dem Abarbeiten des eingelesenen Bi- und Trigrammes eben weiterlesen lassen, was natürlich falsch ist. Ich hätte – und tue es auch jetzt – die Startposition um 1 erhöhen müssen um die nächsten Zeichen einzulesen. Dieser Fehler ist hier auf der Liste schon mehrfach passiert, nur deswegen … Freundliche Grüße Martin
Re: [Neo] Wikipedia-Korpus selbstgemacht
Hallo allerseits, Florian Janßen ſchrieb am 24.03.2011 13:51 Uhr: die Wikipedia Seiten und Artikel vom 01.02.2011 liegen mir als xml-Datei (gut 8GB) vor und ich ein Skript geschrieben, dass mir die Relevanten Text-Knoten extrahiert. Vorerst erstelle ich für jeden Artikel einen eigene Datei. Bei 8GB muss aber Deine Leitung geblüht haben ;). Die aktuelle Version aller Seiten (pages-meta-current.xml.bz2) hat nur 3.3 GB, und wenn man zusätzlich die Benutzer- und Diskussionsſeiten wegläßt und nur die Artikel herunterlädt (pages-articles.xml.bz2), sind es sogar ›nur‹ noch 2.1 GB (Komprimiert, versteht sich ;): http://dumps.wikimedia.org/dewiki/latest/ Und hier ist nochmal die entsprechende Hilfeseite in der Wikipedia: https://secure.wikimedia.org/wikipedia/de/wiki/Wikipedia:Download Viele Grüße, Dennis-ſ
Re: [Neo] Wikipedia-Korpus selbstgemacht
Dennis Heidsiek schrieb am 25.03.2011 um 12:26 Uhr: Florian Janßen ſchrieb am 24.03.2011 13:51 Uhr: die Wikipedia Seiten und Artikel vom 01.02.2011 liegen mir als xml-Datei (gut 8GB) vor und nur die Artikel herunterlädt (pages-articles.xml.bz2), sind es sogar ›nur‹ noch 2.1 GB (Komprimiert, versteht sich ;) Genau die habe ich verwendet. Und das sind eben gut 8 GB wenn man sie auspackt. Gruß Florian
Re: [Neo] Wikipedia-Korpus selbstgemacht
Hallo Florian, Florian Janßen ſchrieb am 25.03.2011 12:41 Uhr: Genau die habe ich verwendet. Und das sind eben gut 8 GB wenn man sie auspackt. Danke für den Hinweis, ich hätte auf weniger ›Ouput‹ (bzw. eine schlechtere Komprimierung) getippt! Man könnte das Entpacken aber vermeiden, wenn man das in eine Pipe packt: $ bzip2 -dc | verarbeite Viele Grüße, Dennis-ſ
Re: [Neo] Wikipedia-Korpus selbstgemacht
Karl schrieb am 25.03.2011 um 11:07 Uhr: Florian Janßen writes: Wikipedia-Korpus ist fertig (knapp 9GB in 190 ~50MB Text-Dateien). Die N-Gramme sind auch fast fertig berechnet. Du hast meine Hochachtung für die wunderbare Leistung! Ist es Dir möglich, mir eine der Textdateien zukommen zu lassen? Kann ich machen, ich kann eine kleinere Datei erzeugen. Oder eine Datei je Artikel und dir ein paar schicken. Dessen Inhalt möchte ich mir genauer ansehen, denn er wird sicher besser sein, als der des Leipziger Korpus. Bei Zeichencodierung Unicode (UTF-8) wird der Wikipediakorpus der erste Korpus sein, der vielleicht eine Aussage zu den Zeichen ermöglicht, die über den ASCII-Zeichenvorrat hinausgehen. Da wäre ich mir nicht zu sicher. Die in der normalen Sprache nötigen Sonderzeichen sind auch nicht so häufig vorhanden, wie sie sein müssten, da recht oft die Ersatzzeichen benutzt wurden. Außerdem sind die Sonderzeichen für html und Wikitext unterrepräsentiert, da ich deren Spuren ja aus dem Text entfernt habe. Aber für Programmiersprachen Co sollen wir vielleicht besser reine Sprachkorpora erstellen und die zu einem geringen Teil beimischen, bzw. darauf achten, dass deren häufige Bi- und Trigamme kein Worstcase produzieren. Was (vermutlich nicht nur) mich interessiert: Kann eine Anleitung erstellt werden, nach der die einzelnen Schritte so umsetzen kann, dass aus auf Wikimedia-Software basierende freie Wikis jeder selber den Textkorpus extrahieren kann? Ja, aber ich bin noch nicht ganz mit meiner Methode zufrieden. Ich bin etwas rabiat zu Werke gegangen und habe im Zweifelsfall lieber einen Ausdruck entfernt, statt ihn stehen zu lassen um einen möglichst „sauberen“ Korpus zu erreichen. Auf der anderen Seite habe ich nur manuell den Wikisyntax entfernt, der mir aufgefallen ist. Ich hatte keine Lust mir die ellenlange php-Datei vorzunehmen, in der der ganze Zauber steckt. Ich bin mal gespannt, wie groß die Unterschiede zum Leipziger Korpus sind und wie sehr die sich in der Bewertung mit Arnes Optimierer auswirken. Da der Wikipediakorpus lexikalischer Natur ist, der Leipziger Korpus hingegen zeitungslastig, erwarte ich deutliche Unterschiede - auch bei den n-Grammen. Ich bin ebenfalls auf erste Ergebnisse gespannt. Die N-Gramme dauern noch, ich habe einen richtig saftigen Fehler in meinem Skript: Ich habe aus „Zufallswort “ nur die Bigramme »Zu« »fa« »ll« »sw« »or« »t « erstellt, nicht aber die richtigen »Zu« »uf« »fa« »al« »ll« »ls« »sw« »wo« »or« »rt« »t « erstellt. Also heute Nacht nochmal das gleiche von vorn. Gruß Florian signature.asc Description: OpenPGP digital signature
Re: [Neo] Wikipedia-Korpus selbstgemacht
Florian Janßen writes: Die N-Gramme dauern noch, ich habe einen richtig saftigen Fehler in meinem Skript: Ich habe aus „Zufallswort “ nur die Bigramme »Zu« »fa« »ll« »sw« »or« »t « erstellt, nicht aber die richtigen »Zu« »uf« »fa« »al« »ll« »ls« »sw« »wo« »or« »rt« »t « erstellt. Also heute Nacht nochmal das gleiche von vorn. Vielleicht etwas umständlich, aber zuverlässig: http://article.gmane.org/gmane.comp.hardware.keyboards.layout.neo/4602 Mit netten Grüßen Karl
[Neo] Wikipedia-Korpus selbstgemacht
Hallo, die Wikipedia Seiten und Artikel vom 01.02.2011 liegen mir als xml-Datei (gut 8GB) vor und ich ein Skript geschrieben, dass mir die Relevanten Text-Knoten extrahiert. Vorerst erstelle ich für jeden Artikel einen eigene Datei. Der Text liegt dann im Wikisyntax vor. Weiß jemand ob es schon Tools gibt um aus dem Wikitext normalen Text zu erzeugen? Gruß Florian
Re: [Neo] Wikipedia-Korpus selbstgemacht
Florian Janßen writes: die Wikipedia Seiten und Artikel vom 01.02.2011 liegen mir als xml-Datei (gut 8GB) vor und ich ein Skript geschrieben, dass mir die Relevanten Text-Knoten extrahiert. Vorerst erstelle ich für jeden Artikel einen eigene Datei. Puh, das wird viel Arbeit! Werden so viele einzelne Dateien noch sinnvoll handhabbar sein - und zudem wesentlich mehr als 8 GB erfordern? Der Text liegt dann im Wikisyntax vor. Weiß jemand ob es schon Tools gibt um aus dem Wikitext normalen Text zu erzeugen? Vor einem halben Jahr versuchte ich erfolglos ein Programm zum Strippen von Wiki-Markup zu finden. Was mir jetzt in den Sinn kommt: Es müsste genug Parser geben, die Wiki-Markup in HTML umsetzen, wobei wir einen benötigten, der alle Bilder entfernt. Vielleicht lassen sich für das Strippen von HTML einfacher Programme finden. Mit netten Grüßen Karl
Re: [Neo] Wikipedia-Korpus selbstgemacht
Karl schrieb am 24.03.2011 um 14:56 Uhr: Florian Janßen writes: die Wikipedia Seiten und Artikel vom 01.02.2011 liegen mir als xml-Datei (gut 8GB) vor und ich ein Skript geschrieben, dass mir die Relevanten Text-Knoten extrahiert. Vorerst erstelle ich für jeden Artikel einen eigene Datei. Puh, das wird viel Arbeit! Werden so viele einzelne Dateien noch sinnvoll handhabbar sein - und zudem wesentlich mehr als 8 GB erfordern? Es ist wesentlich besser als mit einer 8GB-Datei zu hantieren. Und soviel mehr Platz nehmen sie nicht weg. Vielleicht bündel ich die später zu 1000er-Packs oder so. Der Text liegt dann im Wikisyntax vor. Weiß jemand ob es schon Tools gibt um aus dem Wikitext normalen Text zu erzeugen? Vor einem halben Jahr versuchte ich erfolglos ein Programm zum Strippen von Wiki-Markup zu finden. Was mir jetzt in den Sinn kommt: Es müsste genug Parser geben, die Wiki-Markup in HTML umsetzen, wobei wir einen benötigten, der alle Bilder entfernt. Das hatte ich auch überlegt, habe mich dann aber für ein paar Zeilen in der Powershell entschieden. Die paar als Stichproben gelesenen Artikel gelesenen Artikel waren damit vom Wikisyntax befreit. Ich werde langsam zum Shell-Junkie :) Jetzt muss ich nur noch die paar Meta-Seiten raushauen und dann müsste der Grundkorpus fertig sein. signature.asc Description: OpenPGP digital signature
Re: [Neo] Wikipedia-Korpus selbstgemacht
Hallo, Wikipedia-Korpus ist fertig (knapp 9GB in 190 ~50MB Text-Dateien). Die N-Gramme sind auch fast fertig berechnet. Ich bin mal gespannt, wie groß die Unterschiede zum Leipziger Korpus sind und wie sehr die sich in der Bewertung mit Arnes Optimierer auswirken. Gruß Florian