Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-22 Diskussionsfäden Karl
Florian Janßen writes:

 Karl schrieb am 25.03.2011 um 11:07 Uhr:
  Was (vermutlich nicht nur) mich interessiert:
  Kann eine Anleitung erstellt werden, nach der die einzelnen Schritte so
  umsetzen kann, dass aus auf Wikimedia-Software basierende freie Wikis jeder
  selber den Textkorpus extrahieren kann?
 
 Ja, aber ich bin noch nicht ganz mit meiner Methode zufrieden. Ich bin
 etwas rabiat zu Werke gegangen und habe im Zweifelsfall lieber einen
 Ausdruck entfernt, statt ihn stehen zu lassen um einen möglichst
 „sauberen“ Korpus zu erreichen.
 Auf der anderen Seite habe ich nur manuell den Wikisyntax entfernt, der
 mir aufgefallen ist. Ich hatte keine Lust mir die ellenlange php-Datei
 vorzunehmen, in der der ganze Zauber steckt.

Hallo Florian,

in Deinem Beitrag vom 17 Apr 12:56 steht ein Teil des von Dir verwendeten
Skripts. Vielen herzlichen Dank dafür!

Als Anfänger mit der Windows PowerShell sowie in der Bearbeitung von
XML-Dateien bin ich sehr früh an meine Grenzen gestoßen, die sich auch per
Internetrecherche
nicht erweiterten. So bekomme ich es weder auf die Reihe, die zu lesende Datei
zu öffnen, geschweige denn die Methode ReadToFollowing aufzurufen, die nicht
in [System.String] enthalten ist. Zudem muss man sich bei Windows selbst als
angemeldeter Adminstrator noch werweißwelche Rechte zuteilen, damit überhaupt
etwas geht - aber: welche Rechte brauche ich, um mit PowerShell arbeiten zu
können?
Oder gibt es unter Windows 7 einen Befehl
Bin als Admin angemeldet: Teile mir alle Rechte zu, die es gibt. ;)

Für mich sieht das Befassen mit Windows PowerShell vorerst wie
undurchdringliches Gestrüpp aus. :-(
Wie hast Du es geschafft, in die Materie zu gelangen?

Mit netten Grüßen
Karl




Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-21 Diskussionsfäden Arne Babenhauserheide
On Thursday 21 April 2011 02:03:58 Michael Gattinger wrote:
 Am 18.04.2011 00:34, schrieb Arne Babenhauserheide:
  Und ist es frei lizensiert? (hatte ich das schon gefragt?)

 nach welchen regeln sollte es mindestens lizensiert sein und was
 passiert wenn wir es nicht machen?

Das Programm unter GPL oder BSD: Freie Software (Neo ist explizit freie
Software - das ist eins der Dinge, die mir bei Neo sehr gut gefallen). Ich
verwende für den Optimierer GPL, weil ich mit meiner Arbeit gleichzeitig freie
Software fördern will.

Ein Korpus unter cc attribution - wenn absolut nötig auch sharealike (aber das
ist mit nichts anderem kompatibel, darf also nicht kombiniert weitergegeben
werden).

Liebe Grüße,
Arne
--
singing a part of the history of free software:

- http://infinite-hands.draketo.de



signature.asc
Description: This is a digitally signed message part.


Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-21 Diskussionsfäden Arne Babenhauserheide
On Thursday 21 April 2011 02:07:17 Michael Gattinger wrote:
 Leider scheinen noch nicht so viele mitbekommen zu haben was wir machen.
 Kein anderer hat auf die E-Mails vom 17.04.2011 um 23:48 (Kommentar zur
 Repräsentativität von Texten; Re: [Neo] Wikipedia-Korpus
 selbstgemacht) geantwortet

Wir haben hier viele verschiedene Interessen und viele Leute, die einfach
mitlesen. Lass dich davon nicht einschüchtern: Wenn was da ist, haben es meist
doch mehr mitbekommen, als man dachte¹.

Liebe Grüße,
Arne

¹: Das ist normal: Meist gibt es sehr viel mehr Leute, die etwas toll finden,
als Leute, die etwas dazu sagen :)

signature.asc
Description: This is a digitally signed message part.


Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-21 Diskussionsfäden Karl
Michael Gattinger writes:

 Fallen euch derzeit sonst noch Feature ein, die interessant wären? 

Hallo Michael,

vielen Dank für die Arbeit an Deinem feinen Projekt zur Aufbereitung von
Wikipediainhalten für die Verwendung in Korpussen.

Da der Wikipedia-XML-Dump (nur pages und articles) bereits knapp 8 GB groß
ist, kann er für die Bedürfnisse von Neo großzügig geputzt werden. Mehr als
ein GB als Ergebnis wird stets mehr als genug sein.

Nicht immer läßt sich einfach entscheiden, was weggeputzt werden soll und
was bleiben soll.

Was ich versuchen würde, um aus Wikipedia einen Korups für Neo zu
extrahieren:

1. Artikel entfernen, die eine Person oder etwas geografisch Benanntes
(Stadt, Land, Fluss (oft an deren Kategorie erkennbar)) zum Thema haben.
2. Alle Tabellen entfernen.
3. Alle Aufzählungen entfernen.
4. Alle ref entfernen.
5 .Alle references mitsamt einleitender Überschrift entfernen.
6. Alle Überschriften innerhalb von Artikeln entfernen.
7. Titel übriger Artikel belassen (davor zwei, dahinter ein Zeilenumbruch).
8. Zitatinhalte belassen (in typografische Anführungszeichen stellen).
9. Alle Verweise nach Fallunterscheidung modifizieren bzw. entfernen.
10. Alle Artikel entfernen, die als #redirect bwz. #weiterleitung dienen.
11. Alle Artikel entfernen, die als Liste dienen.
12. Alle Artikel entfernen, die als Liste dienen.
13. sub.../sub- bzw. sub.../sub-Inhalte als hoch- oder tiefgestellte
ASCII- oder Unicode-Zeichen darstellen, wenn als solche verfügbar; dabei
ASCII bevorzugen, z. B. ²³.
14. Alle MediaWiki-Markups zu Text konvertieren bzw. entfernen.
15. html-Schreibweisen bzw. Entities konvertieren bzw. entfernen.

Dabei muss Artikelweise vorgegangen werden, da sich andernfalls massenhaft
Fehler durch das Putzen einschleichen können und werden.

Unabhängig von den Wikipedia-Artikeln wäre ein zweiter auf dieselbe Weise
erstellter Korpus zu den Wikipedia-Diskussionen ein besonders interessanter
weiterer Korpus für Neo, da die Diskussionen weitaus mehr von der Sprache
enthalten, wie Menschen sie untereinander in den Internetmedien austauschen.

Leider sind meine Programmier- und Skriptkenntnisse hoffnungslos veraltet
und eingerostet, so dass ich mit den jetzt erforderlichen Umgebungen dafür
vorerst nicht zurecht komme.

Mit netten Grüßen
Karl



P. S.: Reguläre Ausdrücke, die ich derzeit einsetze, könnten vielleicht
hilfreich sein (falls eine zweite Zeile unter dem RegExp steht, dient sie
als Ersetzung). Leider lassen sich wie auch immer verschachtelte
Textkomponenten mittels RegExps schlecht aufbereiten. Auch gibt es weitere
Schwächen in der Anwendung von RegExps, so dass sie sich allenfalls in
Skripten wohlüberlegt einsetzen lassen.

zu3. Alle Aufzählungen entfernen.
Ab 3 Aufzählungsitems alle außer den ersten und letzten löschen:
(?=(^[\*#;][^\n]*?\n))[\*#;]{1,9}[^\n]*?\n(?=(^[\*#;]))

zu 4. Alle ref entfernen.
[ \t]??ref[^]*?[^]*?/ref

zu 5 .Alle references mitsamt einleitender Überschrift entfernen.
references-Zeilen mitsamt zwei Überschriften entfernen:
[\s]*?==.*?==[\s]*?[\s]*?===.*?===[\s]*?[\s]*?references.*?/[\s]*?\n
\n

(mehrmals wiederholen) references-Zeilen incl. einer Überschrift entfernen:
[\s]*?==.*?==[\s]*?references.*?/[\s]*?\n
\n

references-Zeilen ohne Überschrift entfernen:
[\s]*?references.*?/[\s]*?\n
\n

zu 6. Alle Überschriften innerhalb von Artikeln entfernen.
Alle Überschriftenzeilen mit == entfernen:
(=+?)[^=\n]*?\1[\s]*?\n

zu 8. Zitatinhalte belassen (in typografische Anführungszeichen stellen).
Zitatschreibweise {{Zitat|...}} ändern zu ...:
\{\{Zitat\|[']*?([^'][^}\n]*?)[']*?\|[^}\n]*?\}\}\n
\1

zu 9. Alle Verweise nach Fallunterscheidung modifizieren bzw. entfernen.
Verweise zu Wiki-Artikeln in anderer Sprache entfernen (falls aus der
Mailingliste kopiert, dann die Zeilenumbrüche innerhalb dieser einen
einzeiligen RegExp entfernen):
[\s]*?\[(?:\[(ab|abq|ace|ady|af|ain|ak|aln|als|alt|am|amr|an|ang|anp|ar|
arc|arn|aro|arq|ary|arz|as|ast|atv|av|ay|az|azb|ba|ban|bar|bat-smg|bcc|
bcl|be|be-x-old|bfq|bg|bh|bi|bjn|bm|bn|bo|bpy|bqi|br|brx|bs|bto|bug|bxr|
ca|cbk-zam|cdo|ce|ceb|ch|chi|chn|cho|chr|chy|ckb|ckt|co|cr|crh|cs|csb|cu|
cv|cy|da|de|diq|dng|dsb|dv|dz|ee|el|eml|en|enm|eo|es|ese|et|eu|ext|fa|ff|
fi|fil|fiu-vro|fj|fo|fr|frp|frr|fur|fy|ga|gag|gan|gd|gl|glk|gn|gom|got|
grc|gu|gv|ha|hak|haw|haz|he|hi|hif|hil|ho|hr|hsb|hsn|ht|hu|hy|hz|ia|ibb|
id|ie|ig|ii|ik|ilo|inh|io|is|it|iu|ja|jam|jbo|jct|jv|ka|kaa|kab|kac|kbd|
kg|ki|kiu|kj|kjh|kk|kl|km|kn|ko|koi|krc|krj|krl|ks|ksh|ku|kum|kv|kw|ky|
la|lad|lb|lbe|lez|lg|lhu|li|lij|liv|lld|lmo|ln|lo|loz|lrc|lt|ltg|lus|lv|
lzz|mad|mai|map-bms|maz|mdf|mfe|mg|mh|mhr|mi|min|mk|ml|mn|mnc|mr|mrj|ms|
mt|mwl|mww|my|myv|mzn|na|nah|nap|nds|nds-nl|ne|new|ng|niu|njo|nl|nn|no|
non|nov|nrm|nso|nv|ny|oc|om|or|os|ota|ote|otk|pa|pag|pam|pap|pcd|pdc|pdt|
pes|pfl|pi|pih|pko|pl|pms|pnb|pnt|pny\[4\]|ppl|prs|ps|pt|qu|rar|rif|rm|
rmy|rn|ro|roa-rup|roa-tara|rtm|ru|rue|ruq|rw|ryu|sa|sah|sc|scn|sco|sd|sdc|

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-20 Diskussionsfäden Michael Gattinger

Am 18.04.2011 00:34, schrieb Arne Babenhauserheide:
Freut mich, dass du noch dran bist! Ich hatte schon Sorgen, dass du 
aufgegeben

h�ttest, nachdem ich hier so lange nichts von dir geh�rt habe.

bitteschön

Gibt es die Quellen schon im Netz?

Und ist es frei lizensiert? (hatte ich das schon gefragt?)
nach welchen regeln sollte es mindestens lizensiert sein und was 
passiert wenn wir es nicht machen?




Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-20 Diskussionsfäden Michael Gattinger

Am 18.04.2011 02:19, schrieb Arne Babenhauserheide:

On Sunday 17 April 2011 23:48:26 Michael Gattinger wrote:

Derzeit haben mein Bruder und ich Urlaub, k�nnten das Programm also
sofern interesse besteht in 2 Wochen fertigstellen.

Wow, das klingt klasse!

Sowohl die Features als auch, dass ihr es bald fertig haben k�nnt!

- Arne
Fallen euch derzeit sonst noch Feature ein, die interessant wären? 
Leider scheinen noch nicht so viele mitbekommen zu haben was wir machen. 
Kein anderer hat auf die E-Mails vom 17.04.2011 um 23:48 (Kommentar zur 
Repräsentativität von Texten; Re: [Neo] Wikipedia-Korpus 
selbstgemacht) geantwortet :-(






Re: [Neo] Wikipedia-Korpus selbstgemacht (???)

2011-04-18 Diskussionsfäden Wolf-Heider Rein
Zum Korpus für die Untersuchungen:

Etliche Pädagogen und Wissenschaftler für Sprachunterricht haben untersucht, 
welche geschriebenen und gesprochenen Wörter am wichtigsten sind und am 
häufigsten gebraucht werden. Bei meinen Überlegungen für eine Einhand-Tastatur 
verwende ich die Ergebnisse von zwei Büchern: 

Dieter Zahn
German Key Words
the basic 2000-word vocabulary
(c) 1984

Randall L. Jones
Erwin Tschirner
A Frequency Dictionary of German
(core vocabulary for learners)
(c) 2006

Der Vorteil, diese Quellen zu verwenden: Sie sind von Fachleuten für die 
Sprache zusammengestellt, die mit pädagogischer Erfahrung überlegt haben, 
welche Texte sie der Häufigkeitsstatistik zu Grunde legen wollen. Ihre 
Ranglisten bilden deshalb eine solide Basis, auf die ich mich beziehen kann, 
wenn jemand an der Auswahl der Wörter Kritik üben möchte.

Darüber hinaus verwende ich die Rangliste der deutschen Wortformen DeReWo vom 
Institut für Deutsche Sprache in Mannheim, auf das ich vor langer Zeit als 
Mitleser bei NEO aufmerksam wurde.

Das DEUTSCHE REFERENZKORPUS bildet mit über drei Milliarden Wörtern die 
weltweit größte Sammlung elektronischer Korpora
mit geschriebenen deutschsprachigen Texten aus Gegenwart und neuerer 
Vergangenheit,
es enthält belletristische, wissenschaftliche und populärwissenschaftliche 
Texte, eine große Zahl
von Zeitungstexten sowie eine breite Palette weiterer Textarten,
es wird im Hinblick auf Umfang, Variabilität und Qualität kontinuierlich 
weiterentwickelt,
und ist zu einem großen Teil kostenlos über die Recherchesoftware COSMAS II 
zugänglich.

DEREKO (2009): DEUTSCHES REFERENZKORPUS: 
http://www.ids-mannheim.de

Ein Gruß von einem Mitleser aus Pforzheim
Wolf-Heider Rein


Re: [Neo] Wikipedia-Korpus selbstgemacht (???)

2011-04-18 Diskussionsfäden Arne Babenhauserheide
Hi Wolf-Heider,

On Monday 18 April 2011 12:20:29 Wolf-Heider Rein wrote:
 Dieter Zahn
 German Key Words
 the basic 2000-word vocabulary
 (c) 1984

 Randall L. Jones
 Erwin Tschirner
 A Frequency Dictionary of German
 (core vocabulary for learners)
 (c) 2006

 Der Vorteil, diese Quellen zu verwenden: Sie sind von Fachleuten für die
 Sprache zusammengestellt, die mit pädagogischer Erfahrung überlegt haben,
 welche Texte sie der Häufigkeitsstatistik zu Grunde legen wollen. Ihre
 Ranglisten bilden deshalb eine solide Basis, auf die ich mich beziehen
 kann, wenn jemand an der Auswahl der Wörter Kritik üben möchte.

Haben die nGramme, die wir verwenden dürfen? Rein nichtkommerzielle Nutzung
genügt leider nicht, denn wir wollen ja, dass die Tastaturbelegung später
kommerziell genutzt werden kann.

 Darüber hinaus verwende ich die Rangliste der deutschen Wortformen DeReWo
 vom Institut für Deutsche Sprache in Mannheim, auf das ich vor langer Zeit
 als Mitleser bei NEO aufmerksam wurde.

 Das DEUTSCHE REFERENZKORPUS bildet mit über drei Milliarden Wörtern die
 weltweit größte Sammlung elektronischer Korpora mit geschriebenen
 deutschsprachigen Texten aus Gegenwart und neuerer Vergangenheit, es
 enthält belletristische, wissenschaftliche und populärwissenschaftliche
 Texte, eine große Zahl von Zeitungstexten sowie eine breite Palette
 weiterer Textarten,
 es wird im Hinblick auf Umfang, Variabilität und Qualität kontinuierlich
 weiterentwickelt, und ist zu einem großen Teil kostenlos über die
 Recherchesoftware COSMAS II zugänglich.

 DEREKO (2009): DEUTSCHES REFERENZKORPUS:
 http://www.ids-mannheim.de

Das klingt toll, aber:

„Durch juristische Vereinbarungen mit Verlagen, Zeitungsredaktionen und
Autoren war und ist das IDS in der Lage, urheberrechtlich abgesichertes
Textmaterial derart zu beschaffen, dass alle Korpora IDS-intern und Teile
dieser Korpora weltweit öffentlich genutzt werden können, und zwar
ausschließlich zu wissenschaftlichen, nichtkommerziellen Zwecken.“

:(

Ob das jemals auf eine Tastatur gedruckt werden darf ist leider unklar.

Urheberrecht ist leider zu einer undurchdringlichen und für Projekte
gefährlichen Monstrosität geworden :(

Liebe Grüße,
Arne

signature.asc
Description: This is a digitally signed message part.


Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-17 Diskussionsfäden Karl Köckemann
Florian Janßen writes:
 Der Text liegt dann im Wikisyntax vor. Weiß jemand ob es schon Tools
 gibt um aus dem Wikitext normalen Text zu erzeugen?

Karl schrieb am 16.04.2011 um 18:17 Uhr:
 In letzter Zeit habe ich mir den Wikipedia-XML-Dump öfter und
 genauer angesehen.
 Den so sauber geputzt zu bekommen, wie ich es für notwendig erachte, halte
 ich jetzt für noch schwieriger, als wonach es auf den ersten Blick
 ausschaut. (@Florian: Kannst Du mal die Skripte vorstellen - egal auf
 welchem Stand -, mit denen Du das Putzen angegangen bist. Das könnte
 enorm weiter helfen (Brett_vorm_Kopf_hab).)
 Manche Markups kommen verschachtelt vor, manche sogar fehlerhaft, was für
 Reguläre Ausdrücke grundsätzlich schwierig ist.

 Ja, es gibt einige die kaputt, oder sehr verschachtelt sind. Teilweise
 wird auch noch HTML verwendet (was ich bisher nur teilweise erfassen kann).

 Meine zum Putzen verwendeten Ausdrücke sind habe ich am Ende angehängt.
 Es gibt noch einiges zu verbessern, aber im Bezug auf die relative
 Häufigkeit der Buchstaben-N-Gramme ist es eher zu vernachlässigen. Bei
 N-Grammen mit Sonderzeichen dürfte es allerdings noch etwas auffallen.

Florian Janßen schrieb am 17.04.2011 um 13:50 Uhr:
 Mit welchem Tool packst du die 8GB-Datei an?

Die teils aus anderen Themen stammenden Zitate seien in diesem Thema
zusammengefasst aufgegriffen.

Die 8-GB-Datei habe ich ebenfalls gesplittet, weil mein Rechner damit so sehr an
seine technischen Grenzen stößt, dass die Bearbeitung als Einzeldatei leider zu
zeitaufwendig wurde.

Unter Ubuntu-Linux wurde die Datei mit dem Befehl namens split in 12 gleich
große Dateien gesplittet.
Danach wurde in jeder Datei nach dem letzten \page gesucht und der daran
anschließende restliche Text bis zum Dateiende ausgeschnitten und an den anfang
der nächsten Datei eingefügt. Dadurch enthalten alle Dateien vollständige
Artikel, wodurch auf alle Dateien dieselben Funktionen zum Putzen anwendbar 
sind.
Als Editor erwies sich die Windowsversion von UltraEdit als der einzige
gefundene Editor, der in der Lage ist, enorm große Dateien in vertretbar kurzer
Zeit in der von uns gewünschten Weise zu bearbeiten. UltraEdit kann auch die
8-GB-Datei verkraften, wozu aber der Rechner bestenfalls mit z. B. 16 GB RAM und
einer SSD ausgestattet sein sollte - was bei dem mir zur Verfügung stehenden
Rechner nicht gegeben ist.

Auf dem zur Verfügung stehenden Rechner sind zwei Windowsprogramme, mit denen
sich Regulären Ausdrücke allerbestens testen und anwenden lassen:
RegexBuddy zum Testen von Regulären Ausdrücken und
PowerGREP zum Anwenden von Regulären Ausdrücken.

Bislang habe ich also noch keine Skripte geschrieben, sondern erst einmal nur
reguläre Ausdrücke ausprobiert. Dabei wurden Schwachpunkte in der 8-GB-Datei
aufgedeckt - und: Meine MediaWiki-Markup-Kenntnisse sind zu gering, so dass es
mir schwer fällt, zu entscheiden, was in welcher Reihenfolge wie geputzt werden
sollte.

Worin ich mir inzwischen ziemlich sicher bin:
Alle Überschriften innerhalb eines Artikels sollten entfernt werden, da sie
aufgrund des lexikalischen Charakters viel zu häufig vorkommen. Aufgrund der
Größe des Korups können wir uns das erlauben.

Die XML-Struktur des Textes packe ich zunächst mal nur teilweise an, da manche
Befehle für das weitere Putzen notwendig sein könnten.

Bei den Regulären Ausdrücken bin ich mir recht sicher, dass sie zu einem
vertretbar guten Ergebnis führen sollen:
Sprachkürzelhaltige interWikis löschen (Nebenwirkung: Einträge, die [ oder ]
darin verschachtelt haben, bleiben stehen)(Beim Kopieren aus der Mailingliste
die Zeilenumbrüche entfernen, d. h. die Regex steht in einer langen Zeile)
\n??\[(?:\[(ab|abq|ace|ady|af|ain|ak|aln|als|alt|am|amr|an|ang|anp|ar|arc|arn|
aro|arq|ary|arz|as|ast|atv|av|ay|az|azb|ba|ban|bar|bat-smg|bcc|bcl|be|be-x-old|
bfq|bg|bh|bi|bjn|bm|bn|bo|bpy|bqi|br|brx|bs|bto|bug|bxr|ca|cbk-zam|cdo|ce|ceb|
ch|chi|chn|cho|chr|chy|ckb|ckt|co|cr|crh|cs|csb|cu|cv|cy|da|de|diq|dng|dsb|dv|
dz|ee|el|eml|en|enm|eo|es|ese|et|eu|ext|fa|ff|fi|fil|fiu-vro|fj|fo|fr|frp|frr|
fur|fy|ga|gag|gan|gd|gl|glk|gn|gom|got|grc|gu|gv|ha|hak|haw|haz|he|hi|hif|hil|
ho|hr|hsb|hsn|ht|hu|hy|hz|ia|ibb|id|ie|ig|ii|ik|ilo|inh|io|is|it|iu|ja|jam|jbo|
jct|jv|ka|kaa|kab|kac|kbd|kg|ki|kiu|kj|kjh|kk|kl|km|kn|ko|koi|krc|krj|krl|ks|
ksh|ku|kum|kv|kw|ky|la|lad|lb|lbe|lez|lg|lhu|li|lij|liv|lld|lmo|ln|lo|loz|lrc|
lt|ltg|lus|lv|lzz|mad|mai|map-bms|maz|mdf|mfe|mg|mh|mhr|mi|min|mk|ml|mn|mnc|mr|
mrj|ms|mt|mwl|mww|my|myv|mzn|na|nah|nap|nds|nds-nl|ne|new|ng|niu|njo|nl|nn|no|
non|nov|nrm|nso|nv|ny|oc|om|or|os|ota|ote|otk|pa|pag|pam|pap|pcd|pdc|pdt|pes|
pfl|pi|pih|pko|pl|pms|pnb|pnt|pny
\[4\]|ppl|prs|ps|pt|qu|rar|rif|rm|rmy|rn|ro|roa-rup|roa-tara|rtm|ru|rue|ruq|rw|
ryu|sa|sah|sc|scn|sco|sd|sdc|se|sei|sg|sgc|sh|shi|si|simple|sk|skr|sl|sli|slr|
sm|sma|sn|so|sq|sr|srn|ss|st|stq|su|sv|sw|swg|szl|ta|tcy|te|tet|tg|th|ti|tk|tl|
tn|to|tpi|tr|trp|ts|tsd|tt|tum|tvl|tw|ty|tyv|tzm|udm|ug|uk|ur|uun|uz|ve|vec|

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-17 Diskussionsfäden Karl Köckemann
Florian Janßen please.mail at gmx.de writes:

 Weiß jemand ob es schon Tools
 gibt um aus dem Wikitext normalen Text zu erzeugen?

Nachtrag:
Im Internet fand ich wenige Tools zum Entfernen von MediaWiki-Markup. Wie sie
angewendet werden, das übersteigt meine Kenntnisse.

http://toolserver.org/~magnus/wiki2xml/w2x.php
basiert auf:
http://svn.wikimedia.org/viewvc/mediawiki/trunk/parsers/wiki2xml/php/xml2txt.php?revision=71620view=markup

Hier ein anderes Tool:
https://github.com/rdblue/marker

Hier ein Hinweis auf ein Tool:
http://code.google.com/p/gwtwiki/wiki/Mediawiki2PlainText

Mit netten Grüßen
Karl




Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-17 Diskussionsfäden Michael Gattinger

Hallo, leider sehe ich die E-Mail gerade erst.

Ich bin seit 2 Monaten dabei mir ein Programm zu schreiben, die mir eine 
Wikipedia-Source verarbeitet und habe sie fast fertiggestellt.

Ich persönlich habe eine 40GB source von Wikipedia in HTML vorliegen.

Ich muss also
- das HTML entfernen
- Entities übersetzen
- Wiederholende Sachen, wie  [Bearbeiten] oder -- Nickname HH:MM, DD. 
MMM.  (CEST) entfernen


Die Einzelteile zu HTML entfernen und Entities übersetzen liegen mir 
bereits vor und müssen nurnoch zusammengefügt werden.


Übrigends soll das Programm noch mehr können, weshalb es noch nicht 
fertig ist, die restlichen Programmteile sind aber auch schon quasi 
Fertig und müssen nurnoch zusammengebastelt werden damit alles zusammen 
harmoniert.


Weitere Informationen auf Anfrage.


Mit freundlichen Grüßen

Michael Gattinger

Am 24.03.2011 13:51, schrieb Florian Janßen:

Hallo,

die Wikipedia Seiten und Artikel vom 01.02.2011 liegen mir als xml-Datei
(gut 8GB) vor und ich ein Skript geschrieben, dass mir die Relevanten
Text-Knoten extrahiert. Vorerst erstelle ich für jeden Artikel einen
eigene Datei.

Der Text liegt dann im Wikisyntax vor. Weiß jemand ob es schon Tools
gibt um aus dem Wikitext normalen Text zu erzeugen?

Gruß Florian







Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-17 Diskussionsfäden Pascal Hauck
Am Sonntag, 17. April 2011, 16:15:47 schrieb Michael Gattinger:
 Ich bin seit 2 Monaten dabei mir ein Programm zu schreiben

Ich bin ungern derjenige, der eine engagierte Arbeit möglicherweise hinfällig 
macht. Dennoch wundere ich mich darüber, dass so leichtfertig und 
unhinterfragt eine Enzyklopädie als sinnvoller Korpus erachtet wird.

Neo2 ist bereits eine gute Tastatur, bei einer zukünftigen Neo3 darf man 
durchaus von „hochoptimiert“ sprechen. Eine so weitgehende Optimierung setzt 
natürlich voraus, dass sämtliche Zwischenschritte – insbesondere die Wahl des 
Korpus – den gleichen hohen Ansprüchen genügen.
Genau dies sehe ich bei der Wikipedia für unsere Zwecke nicht geben!

Natürlich ist die umfangreiche, freie und leicht zugängliche Textmenge 
verführerisch – jedoch deckt sich der lexikalische Schreibstil nicht mit dem 
eines gängigen Anwenders.

Das vermutlich einfachste und zugleich einsichtigest Beispiel ist das Wort 
„ich“. Wärend fast keine E‑Mail ohne dieses Wort auskommt, hat ein 
Stichprobentest in nur einem von 10 Wikipedia‑Artikeln einen Treffer egeben – 
und zwar in einem Zitat. Gleiches gilt für andere Wörter: du, wir, uns, mir, 
mich, sich, …

Da ein Großteil der am PC geschriebenen Texte zur Kommunikation gehören 
(E‑Mail, Chat, IRC, Twitter, soziale Netzwerke, …) sehe ich die einen 
enzyklopädischen Korpus kritisch.
Jede darauf aufbauende Optimierung ist zumindest fraglich und kann nicht 
zweifelsfrei behaupten, die selbst gesteckten hohen Ansprüche zu erfüllen.


Skeptische Grüße,
Pascal



Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-17 Diskussionsfäden Pascal Hauck
Am Sonntag, 17. April 2011, 19:44:19 schrieb Karl Köckemann:
 Ziel ist es, mehrere Korpora zu verwenden, um
 die dadurch unterschiedlichen Ergebnisse vergleichen zu können.

In diesem Fall bin ich sehr dafür, die Wikipedia als EINEN Testkorpus mit 
aufzunehmen. Es ist nur wichtig, die Nachteiles dieses Korpus zu kennen – aber 
das gilt für andere natürlich ebenso.


Gruß,
Pascal



Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-17 Diskussionsfäden Florian Janßen
Pascal Hauck schrieb am 17.04.2011 um 22:11 Uhr:
 Am Sonntag, 17. April 2011, 19:44:19 schrieb Karl Köckemann:
 Ziel ist es, mehrere Korpora zu verwenden, um
 die dadurch unterschiedlichen Ergebnisse vergleichen zu können.
 
 In diesem Fall bin ich sehr dafür, die Wikipedia als EINEN Testkorpus mit 
 aufzunehmen. Es ist nur wichtig, die Nachteiles dieses Korpus zu kennen – 
 aber 
 das gilt für andere natürlich ebenso.

Natürlich ist Wikipedia kein Referenzkorpus, aber er liefert eine Menge
freien Text in halbwegs aktueller deutscher Sprache.

Ich habe vor kurzem angefangen diese Mailingliste auszuwerten, da dürfte
das Trigramm „Neo“ allerdings etwas zu häufig vorkommen ;)

Gruß Florian



signature.asc
Description: OpenPGP digital signature


Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-17 Diskussionsfäden Michael Gattinger
Entschuldigung, ich hatte das Thema nur kurz angerissen um erste 
Reaktionen abzuwarten. Da anscheinend Interesse (welcher Art auch immer) 
besteht bin ich gerne dazu bereit näher ins Detail zu gehen:


***Gründe für das Programmieren***
Ich hatte den Ticket 250 eröffnet und darauf keine Antwort erhalten.
http://wiki.neo-layout.org/ticket/250
http://lists.neo-layout.org/pipermail/diskussion/2011-February/018339.html
Deswegen ging ich von desinteresse aus und fing an ein (bereits vor 
Jahren geschriebenes) Wörter-Zahl-Programm meines Bruder umzuschreiben, 
sodass es Wörter zählt und Wörter für Lektionen ausgibt, je nach 
Lernreihenfolge der Buchstaben, siehe weiteres Ticket 250.

Damals geplant:

(enit)(ar)(ud)(os)(ch)(lg)(Großschreibung)(pmPM)(wkWK)(zbZB)(vfVF)(ßj?J)(yüYÜ)(öäÖÄ)(xqXQ)

Heute veraltet.

Nachdem ich zu Anfang wild irgendwoher Texte kopierte merkte ich 
irgendwann, dass das so nix wird und suchte nach größeren Quellen. So 
fand ich mit dem Project-Gutenberg 
http://www.gutenberg.org/wiki/Main_Page eine Quelle von UTF8 Büchern, 
leider, wie ich feststellte meist von vor 1930. Zusätzlich fand ich nach 
endloser sucherrei eine 40GB HTML Version von Wikipedia (Artikel, 
Diskussionen, Benutzerseiten, Bilder etc.).
Wegen der Wikipedia-Quelle wollte ich mein Programm also um HTML  
Entitifilter sowie Wikipedia-Spezifische Filter ([Bearbeiten], 
Signaturen) erweitern.


Nach einem Gespräch mit Arne Babenh* stellte ich fest, dass er auf der 
Suche nach neuen Korpora ist, möglichst vielfältig. Deswegen wollte ich 
dann ein allgemeines Programm entwickeln, dass man immer wieder 
verwenden kann (Mit GUI).


***Programmspezifikation kurz und knapp***
Möglichkeit zum
a) UTF-8-kompatiblem arbeiten
b) modularen bedienen
c) speichern des (der) Ergebnisse(s) nach jedem der optionalen 
Zwischenschritte:

1) filtern von HTML in Text
2) übersetzen von Entities (nbsp; etc)  in UTF-8 Zeichen
3) filtern von Wiki-Spezifischen besonderheiten {[Bearbeiten] , -- 
Nickname HH:MM, DD. MMM.  (CEST)}

4.1) zählen von n-Grammen (Ausgabe absolut, prozentual, etc.)
4.2) zählen von Wörtern
5.1) mischen von Ergebnissen mehrer n-Gramm-Zählungen; näheres siehe unten
5.2) ausgeben von Wörtern in Lernreihenfolge; näheres siehe unten

***Erklärungen zur Programmspezifikation***
Modularer Aufbau:
Der Nutzer kann bei jedem Programmlauf entscheiden welche Funktionen er 
nutzen möchte und welche nicht. Z.b. kann er (wenn er bereits 
textbasierte Vorlagen hat) das HTML-, Entitie- und Wikipedia-Filtern 
(Nummer 1 bis 3) rauslassen und direkt mit dem zählen von n-Grammen 
anfangen und auch direkt danach aufhören.



--
# * KOMMENTAR ZUR REPRÄSENTATIVITÄT VON TEXTEN * #

Siehe E-Mail Kommentar zur Repräsentativität von Texten vom 17.04.2011 
um 23:48

---

5.1) und 4.1):
Wir haben nach 4.1) die n-Gramm-Statistik prozentual vorliegen. Nun 
machen wir dies mit verschiedenen Textgattungen ({Lexika, Diskussion, 
E-Mails, ...}) verschiedener Sprachen ({Deutschen, Englischen, 
Programmiersprachen, ...}). Dann können wir diese Prozentwerte nach 
belieben miteinander verrechnen. So könnten wir sagen: Es wird 80% 
deutsch geschrieben und 20% englisch. Oder komplizierter (nur 
beispielhaft) 10% deutsche Lexika, 20% deutsche E-Mails, 30% deutsche 
Diskussionen, 10% Programmierung, 5% englische Lexika, 10% englische 
E-Mails, 15% englische Diskussionen; Summe: 100%.


5.2) und 4.2)
Wenn wir Wörter nach deren Häufigkeit sortiert vorliegen haben können 
wir zu einem beliebigen Tastaturlayout uns eine Lernreihenfolge 
überlegen, in welcher wir die Buchstaben lernen wollen.

Z.b. (enit)(ar)(ud)(os)(ch)(lg) usw.
Nun geben in Liste eins Wörter aus, die mit {e,n,i,t} geschrieben werden 
können.
Dann geben wir eine Liste zwei mit Wörtern aus, die mit {e,n,i,t,a,r} 
geschrieben werden könne, wobei a oder r mindestens einmal vorkommen 
müssen.

usw. usf.
Daraus kann man dann Lernlektionen machen.


Derzeit haben mein Bruder und ich Urlaub, könnten das Programm also 
sofern interesse besteht in 2 Wochen fertigstellen.
Weitere Vorschläge zu Dingen, die das Programm können soll könnt ihr 
natürlich auch gerne liefern.


Mit freundlichen Grüßen

Michael Gattinger



Am 17.04.2011 19:06, schrieb Pascal Hauck:

Am Sonntag, 17. April 2011, 16:15:47 schrieb Michael Gattinger:

Ich bin seit 2 Monaten dabei mir ein Programm zu schreiben

Ich bin ungern derjenige, der eine engagierte Arbeit möglicherweise hinfällig
macht. Dennoch wundere ich mich darüber, dass so leichtfertig und
unhinterfragt eine Enzyklopädie als sinnvoller Korpus erachtet wird.

Neo2 ist bereits eine gute Tastatur, bei einer zukünftigen Neo3 darf man
durchaus von „hochoptimiert“ sprechen. Eine so weitgehende Optimierung setzt
natürlich voraus, dass sämtliche 

Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-17 Diskussionsfäden Michael Gattinger

Am 17.04.2011 22:23, schrieb Florian Janßen:

Pascal Hauck schrieb am 17.04.2011 um 22:11 Uhr:

Am Sonntag, 17. April 2011, 19:44:19 schrieb Karl Köckemann:

Ziel ist es, mehrere Korpora zu verwenden, um
die dadurch unterschiedlichen Ergebnisse vergleichen zu können.

In diesem Fall bin ich sehr dafür, die Wikipedia als EINEN Testkorpus mit
aufzunehmen. Es ist nur wichtig, die Nachteiles dieses Korpus zu kennen – aber
das gilt für andere natürlich ebenso.

Natürlich ist Wikipedia kein Referenzkorpus, aber er liefert eine Menge
freien Text in halbwegs aktueller deutscher Sprache.

Ich habe vor kurzem angefangen diese Mailingliste auszuwerten, da dürfte
das Trigramm „Neo“ allerdings etwas zu häufig vorkommen ;)

Gruß Florian

Nicht nur Neo ... Auch Wörter wie Tastatur, Taste, Buchstabe, n-Gramm 
usw. sind hier völlig übervorteilt.




Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-17 Diskussionsfäden Arne Babenhauserheide
Hi Michael,

On Sunday 17 April 2011 16:15:47 Michael Gattinger wrote:
 Hallo, leider sehe ich die E-Mail gerade erst.

 Ich bin seit 2 Monaten dabei mir ein Programm zu schreiben, die mir eine
 Wikipedia-Source verarbeitet und habe sie fast fertiggestellt.

Freut mich, dass du noch dran bist! Ich hatte schon Sorgen, dass du aufgegeben
hättest, nachdem ich hier so lange nichts von dir gehört habe.

 Übrigends soll das Programm noch mehr können, weshalb es noch nicht
 fertig ist, die restlichen Programmteile sind aber auch schon quasi
 Fertig und müssen nurnoch zusammengebastelt werden damit alles zusammen
 harmoniert.

 Weitere Informationen auf Anfrage.

Gibt es die Quellen schon im Netz?

Und ist es frei lizensiert? (hatte ich das schon gefragt?)

Liebe Grüße,
Arne
--
singing a part of the history of free software:

- http://infinite-hands.draketo.de



signature.asc
Description: This is a digitally signed message part.


Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-04-17 Diskussionsfäden Arne Babenhauserheide
On Sunday 17 April 2011 23:48:26 Michael Gattinger wrote:
 Derzeit haben mein Bruder und ich Urlaub, könnten das Programm also
 sofern interesse besteht in 2 Wochen fertigstellen.

Wow, das klingt klasse!

Sowohl die Features als auch, dass ihr es bald fertig haben könnt!

- Arne

signature.asc
Description: This is a digitally signed message part.


Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-03-27 Diskussionsfäden Florian Janßen
Martin Roppelt schrieb am 26.03.2011 um 17:36 Uhr:
 Florian Janßen schrieb:
 Karl schrieb am 25.03.2011 um 11:07 Uhr:
 Florian Janßen writes:

 Ist es Dir möglich, mir eine der Textdateien zukommen zu lassen?

 Kann ich machen, ich kann eine kleinere Datei erzeugen. Oder eine 
 Datei je Artikel und dir ein paar schicken.
 
 Für mich bitte auch. Ich kenne mich als Hobby-Wikipedianer ein
 bisschen damit aus (vielleicht untertrieben, weiß ich nicht ;)) und
 würde mir das Ergebnis gerne ansehen.

Irgendwelche Lieblings-Artikel? Ansonsten fische ich ein Stück aus der
Mitte.

 Die in der normalen Sprache nötigen Sonderzeichen sind auch nicht
 so häufig vorhanden, wie sie sein müssten, da recht oft die
 Ersatzzeichen benutzt wurden.
 
 Das würde ich mir gerne auch noch einmal genauer anschauen.

„“ werden recht häufig verwendet, aber z.B. geschützte Leerzeichen oder
echte Gedankenstriche findet man kaum.


 Außerdem sind die Sonderzeichen für html und Wikitext 
 unterrepräsentiert, da ich deren Spuren ja aus dem Text entfernt habe.
 
 Das ist doch auch gut so, schließlich wollen wir ja auf allgemeinen Text 
 und nicht auf Wiki(pedia)-Bearbeiten optimieren. 

Ja, klar, aber die allgemeinen Schreibarbeiten schließen zu einem (sehr
kleinen) Teil auch das Bearbeiten von HTML und Wikitext mit ein. Aber
ich denke mittlerweile, dass der Anteil so minimal ist, dass es
sinnvoller sein kann, diese Sonderfälle zu vernachlässigen und nur auf
Worstcase-Fälle zu prüfen.

 Ich denke, ich kann da ein bisschen was beitragen. Vielleicht hast du 
 zum Vergleich noch Dateien, einmal mit mehr und einmal mit weniger 
 MediaWiki-Syntax?

Ich habe nur ganz und garnicht.

Damit wir zu rabiates Vorgehen ausschließen können.

Ich habe beispielsweise alle Tabellen rausgeschmissen ;)

 Die N-Gramme dauern noch, ich habe einen richtig saftigen Fehler in 
 meinem Skript[…]
 
 Running gag ;)

?
Ich habe nach dem Abarbeiten des eingelesenen Bi- und Trigrammes eben
weiterlesen lassen, was natürlich falsch ist. Ich hätte – und tue es
auch jetzt – die Startposition um 1 erhöhen müssen um die nächsten
Zeichen einzulesen.

Gruß Florian



signature.asc
Description: OpenPGP digital signature


Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-03-27 Diskussionsfäden Martin Roppelt
Ich grüße euch!

Florian Janßen schrieb:
 Martin Roppelt schrieb am 26.03.2011 um 17:36 Uhr:
  Florian Janßen schrieb:
  Die in der normalen Sprache nötigen Sonderzeichen sind auch nicht
  so häufig vorhanden, wie sie sein müssten, da recht oft die
  Ersatzzeichen benutzt wurden.

Mit Ersatzzeichen meinst du '//- statt ’/„“/– etc.? Oder meinst du 
nbsp;, ndash; etc.?

  Das würde ich mir gerne auch noch einmal genauer anschauen.
 
 „“ werden recht häufig verwendet, aber z.B. geschützte Leerzeichen oder
 echte Gedankenstriche findet man kaum.

(Normalbreite) geschützte Leerzeichen sind aus verschiedenen technischen 
Gründen (hab ich schon wieder halb vergessen) nicht möglich. Zum 
Beispiel wandelt die mein Browser Konqueror beim Abspeichern automatisch 
in normale Leerzeichen um. Daneben gibt es auch noch andere 
Inkompatibilitäten. Dafür wird gerne der Ersatz „nbsp;“ verwendet. Auch 
für Fälle, wo eigentlich ein schmales geschütztes Leerzeichen angebracht 
wäre (das ist ebenfalls technisch noch nicht möglich).

Dazu gibt es in der Wikipedia ein paar Diskussionen, ich mag sie aber 
jetzt nicht raussuchen.

Gerade Anführungszeichen treffe ich zum Teil auch noch an, das 
Bewusstsein, diese en passant in typografische zu korrigieren ist aber 
bei der Autorenschaft, denke ich, vorhanden.

Ich habe schon das Gefühl, dass – zumindest in den Artikeln – 
Halbgeviertstriche als Gedankenstriche verwendet werden. Ich treffe zwar 
hin und wieder Artikel, bei denen das nicht der Fall ist, aber die sind 
imho selten. Manchmal trifft man auch noch ndash;, aber das halte ich 
persönlich für schlechten Stil.

  Außerdem sind die Sonderzeichen für html und Wikitext 
  unterrepräsentiert, da ich deren Spuren ja aus dem Text entfernt habe.
  
  Das ist doch auch gut so, schließlich wollen wir ja auf allgemeinen Text 
  und nicht auf Wiki(pedia)-Bearbeiten optimieren. 
 
 Ja, klar, aber die allgemeinen Schreibarbeiten schließen zu einem (sehr
 kleinen) Teil auch das Bearbeiten von HTML und Wikitext mit ein. Aber
 ich denke mittlerweile, dass der Anteil so minimal ist, dass es
 sinnvoller sein kann, diese Sonderfälle zu vernachlässigen und nur auf
 Worstcase-Fälle zu prüfen.

Genau, man muss nicht darauf mitoptimieren (zuviele Parameter 
verdurchschnittlichen das Ergebnis zu stark), aber es sollte auch nicht 
schlecht damit schreibbar sein.

  Die N-Gramme dauern noch, ich habe einen richtig saftigen Fehler in 
  meinem Skript[…]
  
  Running gag ;)
 
 ?
 Ich habe nach dem Abarbeiten des eingelesenen Bi- und Trigrammes eben
 weiterlesen lassen, was natürlich falsch ist. Ich hätte – und tue es
 auch jetzt – die Startposition um 1 erhöhen müssen um die nächsten
 Zeichen einzulesen.

Dieser Fehler ist hier auf der Liste schon mehrfach passiert, nur 
deswegen …

Freundliche Grüße
Martin



Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-03-25 Diskussionsfäden Dennis Heidsiek

Hallo allerseits,


Florian Janßen ſchrieb am 24.03.2011 13:51 Uhr:

die Wikipedia Seiten und Artikel vom 01.02.2011 liegen mir als xml-Datei
(gut 8GB) vor und ich ein Skript geschrieben, dass mir die Relevanten
Text-Knoten extrahiert. Vorerst erstelle ich für jeden Artikel einen
eigene Datei.


Bei 8GB muss aber Deine Leitung geblüht haben ;). Die aktuelle Version 
aller Seiten (pages-meta-current.xml.bz2) hat nur 3.3 GB, und wenn man 
zusätzlich die Benutzer- und Diskussionsſeiten wegläßt und nur die 
Artikel herunterlädt (pages-articles.xml.bz2), sind es sogar ›nur‹ noch  
2.1 GB (Komprimiert, versteht sich ;):


http://dumps.wikimedia.org/dewiki/latest/

Und hier ist nochmal die entsprechende Hilfeseite in der Wikipedia:
https://secure.wikimedia.org/wikipedia/de/wiki/Wikipedia:Download


Viele Grüße,
Dennis-ſ




Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-03-25 Diskussionsfäden Florian Janßen
Dennis Heidsiek schrieb am 25.03.2011 um 12:26 Uhr:
 Florian Janßen ſchrieb am 24.03.2011 13:51 Uhr:
 die Wikipedia Seiten und Artikel vom 01.02.2011 liegen mir als xml-Datei
 (gut 8GB) vor 

 und nur die Artikel herunterlädt (pages-articles.xml.bz2), sind es
 sogar ›nur‹ noch  2.1 GB (Komprimiert, versteht sich ;)

Genau die habe ich verwendet. Und das sind eben gut 8 GB wenn man sie
auspackt.

Gruß Florian




Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-03-25 Diskussionsfäden Dennis Heidsiek

Hallo Florian,


Florian Janßen ſchrieb am 25.03.2011 12:41 Uhr:
Genau die habe ich verwendet. Und das sind eben gut 8 GB wenn man sie 
auspackt.


Danke für den Hinweis, ich hätte auf weniger ›Ouput‹ (bzw. eine 
schlechtere Komprimierung) getippt!


Man könnte das Entpacken aber vermeiden, wenn man das in eine Pipe packt:
$ bzip2 -dc | verarbeite


Viele Grüße,
Dennis-ſ



Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-03-25 Diskussionsfäden Florian Janßen
Karl schrieb am 25.03.2011 um 11:07 Uhr:
 Florian Janßen writes:
 
 Wikipedia-Korpus ist fertig (knapp 9GB in 190 ~50MB Text-Dateien). Die
 N-Gramme sind auch fast fertig berechnet.
 
 Du hast meine Hochachtung für die wunderbare Leistung!
 Ist es Dir möglich, mir eine der Textdateien zukommen zu lassen?

Kann ich machen, ich kann eine kleinere Datei erzeugen. Oder eine Datei
je Artikel und dir ein paar schicken.


 Dessen Inhalt möchte ich mir genauer ansehen, denn er wird sicher 
 besser sein, als der des Leipziger Korpus. Bei Zeichencodierung 
 Unicode (UTF-8) wird der Wikipediakorpus der erste Korpus sein, der 
 vielleicht eine Aussage zu den Zeichen ermöglicht, die über den
 ASCII-Zeichenvorrat hinausgehen.

Da wäre ich mir nicht zu sicher. Die in der normalen Sprache nötigen
Sonderzeichen sind auch nicht so häufig vorhanden, wie sie sein müssten,
da recht oft die Ersatzzeichen benutzt wurden.
Außerdem sind die Sonderzeichen für html und Wikitext
unterrepräsentiert, da ich deren Spuren ja aus dem Text entfernt habe.
Aber für Programmiersprachen  Co sollen wir vielleicht besser reine
Sprachkorpora erstellen und die zu einem geringen Teil beimischen, bzw.
darauf achten, dass deren häufige Bi- und Trigamme kein Worstcase
produzieren.

 Was (vermutlich nicht nur) mich interessiert:
 Kann eine Anleitung erstellt werden, nach der die einzelnen Schritte so 
 umsetzen
 kann, dass aus auf Wikimedia-Software basierende freie Wikis jeder selber den
 Textkorpus extrahieren kann?

Ja, aber ich bin noch nicht ganz mit meiner Methode zufrieden. Ich bin
etwas rabiat zu Werke gegangen und habe im Zweifelsfall lieber einen
Ausdruck entfernt, statt ihn stehen zu lassen um einen möglichst
„sauberen“ Korpus zu erreichen.
Auf der anderen Seite habe ich nur manuell den Wikisyntax entfernt, der
mir aufgefallen ist. Ich hatte keine Lust mir die ellenlange php-Datei
vorzunehmen, in der der ganze Zauber steckt.


 Ich bin mal gespannt, wie groß die Unterschiede zum Leipziger Korpus
 sind und wie sehr die sich in der Bewertung mit Arnes Optimierer auswirken.
 
 Da der Wikipediakorpus lexikalischer Natur ist, der Leipziger Korpus hingegen
 zeitungslastig, erwarte ich deutliche Unterschiede - auch bei den n-Grammen. 
 Ich
 bin ebenfalls auf erste Ergebnisse gespannt.

Die N-Gramme dauern noch, ich habe einen richtig saftigen Fehler in
meinem Skript:
Ich habe aus „Zufallswort “ nur die Bigramme
»Zu« »fa« »ll« »sw« »or« »t « erstellt, nicht aber die richtigen
»Zu« »uf« »fa« »al« »ll« »ls« »sw« »wo« »or« »rt« »t « erstellt.

Also heute Nacht nochmal das gleiche von vorn.

Gruß Florian





signature.asc
Description: OpenPGP digital signature


Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-03-25 Diskussionsfäden Karl
Florian Janßen writes:

 Die N-Gramme dauern noch, ich habe einen richtig saftigen Fehler in
 meinem Skript:
 Ich habe aus „Zufallswort “ nur die Bigramme
 »Zu« »fa« »ll« »sw« »or« »t « erstellt, nicht aber die richtigen
 »Zu« »uf« »fa« »al« »ll« »ls« »sw« »wo« »or« »rt« »t « erstellt.
 
 Also heute Nacht nochmal das gleiche von vorn.

Vielleicht etwas umständlich, aber zuverlässig:
http://article.gmane.org/gmane.comp.hardware.keyboards.layout.neo/4602

Mit netten Grüßen
Karl




[Neo] Wikipedia-Korpus selbstgemacht

2011-03-24 Diskussionsfäden Florian Janßen
Hallo,

die Wikipedia Seiten und Artikel vom 01.02.2011 liegen mir als xml-Datei
(gut 8GB) vor und ich ein Skript geschrieben, dass mir die Relevanten
Text-Knoten extrahiert. Vorerst erstelle ich für jeden Artikel einen
eigene Datei.

Der Text liegt dann im Wikisyntax vor. Weiß jemand ob es schon Tools
gibt um aus dem Wikitext normalen Text zu erzeugen?

Gruß Florian



Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-03-24 Diskussionsfäden Karl
Florian Janßen writes:

 die Wikipedia Seiten und Artikel vom 01.02.2011 liegen mir als xml-Datei
 (gut 8GB) vor und ich ein Skript geschrieben, dass mir die Relevanten
 Text-Knoten extrahiert. Vorerst erstelle ich für jeden Artikel einen
 eigene Datei.

Puh, das wird viel Arbeit!
Werden so viele einzelne Dateien noch sinnvoll handhabbar sein - und zudem
wesentlich mehr als 8 GB erfordern?

 Der Text liegt dann im Wikisyntax vor. Weiß jemand ob es schon Tools
 gibt um aus dem Wikitext normalen Text zu erzeugen?

Vor einem halben Jahr versuchte ich erfolglos ein Programm zum Strippen von
Wiki-Markup zu finden. Was mir jetzt in den Sinn kommt:
Es müsste genug Parser geben, die Wiki-Markup in HTML umsetzen, wobei wir einen
benötigten, der alle Bilder entfernt.
Vielleicht lassen sich für das Strippen von HTML einfacher Programme finden.

Mit netten Grüßen
Karl




Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-03-24 Diskussionsfäden Florian Janßen
Karl schrieb am 24.03.2011 um 14:56 Uhr:
 Florian Janßen writes:
 
 die Wikipedia Seiten und Artikel vom 01.02.2011 liegen mir als xml-Datei
 (gut 8GB) vor und ich ein Skript geschrieben, dass mir die Relevanten
 Text-Knoten extrahiert. Vorerst erstelle ich für jeden Artikel einen
 eigene Datei.
 
 Puh, das wird viel Arbeit!
 Werden so viele einzelne Dateien noch sinnvoll handhabbar sein - und zudem
 wesentlich mehr als 8 GB erfordern?

Es ist wesentlich besser als mit einer 8GB-Datei zu hantieren. Und
soviel mehr Platz nehmen sie nicht weg.

Vielleicht bündel ich die später zu 1000er-Packs oder so.

 Der Text liegt dann im Wikisyntax vor. Weiß jemand ob es schon Tools
 gibt um aus dem Wikitext normalen Text zu erzeugen?
 
 Vor einem halben Jahr versuchte ich erfolglos ein Programm zum Strippen von
 Wiki-Markup zu finden. Was mir jetzt in den Sinn kommt:
 Es müsste genug Parser geben, die Wiki-Markup in HTML umsetzen, wobei wir 
 einen
 benötigten, der alle Bilder entfernt.

Das hatte ich auch überlegt, habe mich dann aber für ein paar Zeilen in
der Powershell entschieden. Die paar als Stichproben gelesenen Artikel
gelesenen Artikel waren damit vom Wikisyntax befreit. Ich werde langsam
zum Shell-Junkie :)

Jetzt muss ich nur noch die paar Meta-Seiten raushauen und dann müsste
der Grundkorpus fertig sein.



signature.asc
Description: OpenPGP digital signature


Re: [Neo] Wikipedia-Korpus selbstgemacht

2011-03-24 Diskussionsfäden Florian Janßen
Hallo,

Wikipedia-Korpus ist fertig (knapp 9GB in 190 ~50MB Text-Dateien). Die
N-Gramme sind auch fast fertig berechnet.

Ich bin mal gespannt, wie groß die Unterschiede zum Leipziger Korpus
sind und wie sehr die sich in der Bewertung mit Arnes Optimierer auswirken.

Gruß Florian