Re: [Neo] Wikipedia-Korpus selbstgemacht

Michael Gattinger Sun, 17 Apr 2011 14:48:46 -0700

Entschuldigung, ich hatte das Thema nur kurz angerissen um ersteReaktionen abzuwarten. Da anscheinend Interesse (welcher Art auch immer)besteht bin ich gerne dazu bereit näher ins Detail zu gehen:


***Gründe für das Programmieren***
Ich hatte den Ticket 250 eröffnet und darauf keine Antwort erhalten.
http://wiki.neo-layout.org/ticket/250
http://lists.neo-layout.org/pipermail/diskussion/2011-February/018339.html

Deswegen ging ich von desinteresse aus und fing an ein (bereits vorJahren geschriebenes) Wörter-Zahl-Programm meines Bruder umzuschreiben,sodass es Wörter zählt und Wörter für Lektionen ausgibt, je nachLernreihenfolge der Buchstaben, siehe weiteres Ticket 250.

Damals geplant:


(enit)(ar)(ud)(os)(ch)(lg)(Großschreibung)(pmPM)(wkWK)(zbZB)(vfVF)(ßj?J)(yüYÜ)(öäÖÄ)(xqXQ)

Heute veraltet.

Nachdem ich zu Anfang wild irgendwoher Texte kopierte merkte ichirgendwann, dass das so nix wird und suchte nach größeren Quellen. Sofand ich mit dem "Project-Gutenberg"http://www.gutenberg.org/wiki/Main_Page eine Quelle von UTF8 Büchern,leider, wie ich feststellte meist von vor 1930. Zusätzlich fand ich nachendloser sucherrei eine 40GB HTML Version von Wikipedia (Artikel,Diskussionen, Benutzerseiten, Bilder etc.).Wegen der Wikipedia-Quelle wollte ich mein Programm also um HTML &Entitifilter sowie Wikipedia-Spezifische Filter ([Bearbeiten],Signaturen) erweitern.

Nach einem Gespräch mit Arne Babenh* stellte ich fest, dass er auf derSuche nach neuen Korpora ist, möglichst vielfältig. Deswegen wollte ichdann ein allgemeines Programm entwickeln, dass man immer wiederverwenden kann (Mit GUI).


***Programmspezifikation kurz und knapp***
Möglichkeit zum
a) UTF-8-kompatiblem arbeiten
b) modularen bedienen

c) speichern des (der) Ergebnisse(s) nach jedem der optionalenZwischenschritte:

1) filtern von HTML in Text
2) übersetzen von Entities (&nbsp; etc)  in UTF-8 Zeichen

3) filtern von Wiki-Spezifischen besonderheiten {[Bearbeiten] , --Nickname HH:MM, DD. MMM. JJJJ (CEST)}

4.1) zählen von n-Grammen (Ausgabe absolut, prozentual, etc.)
4.2) zählen von Wörtern
5.1) mischen von Ergebnissen mehrer n-Gramm-Zählungen; näheres siehe unten
5.2) ausgeben von Wörtern in Lernreihenfolge; näheres siehe unten

***Erklärungen zur Programmspezifikation***
Modularer Aufbau:

Der Nutzer kann bei jedem Programmlauf entscheiden welche Funktionen ernutzen möchte und welche nicht. Z.b. kann er (wenn er bereitstextbasierte Vorlagen hat) das HTML-, Entitie- und Wikipedia-Filtern(Nummer 1 bis 3) rauslassen und direkt mit dem "zählen von n-Grammen"anfangen und auch direkt danach aufhören.



--------------------------------------------------------------------------------------------------------------
##### ***** KOMMENTAR ZUR REPRÄSENTATIVITÄT VON TEXTEN ***** #####

Siehe E-Mail "Kommentar zur Repräsentativität von Texten" vom 17.04.2011um 23:48

---------------------------------------------------------------------------------------------------------------

5.1) und 4.1):

Wir haben nach 4.1) die n-Gramm-Statistik prozentual vorliegen. Nunmachen wir dies mit verschiedenen Textgattungen ({Lexika, Diskussion,E-Mails, ...}) verschiedener Sprachen ({Deutschen, Englischen,Programmiersprachen, ...}). Dann können wir diese Prozentwerte nachbelieben miteinander verrechnen. So könnten wir sagen: Es wird 80%deutsch geschrieben und 20% englisch. Oder komplizierter (nurbeispielhaft) 10% deutsche Lexika, 20% deutsche E-Mails, 30% deutscheDiskussionen, 10% Programmierung, 5% englische Lexika, 10% englischeE-Mails, 15% englische Diskussionen; Summe: 100%.


5.2) und 4.2)

Wenn wir Wörter nach deren Häufigkeit sortiert vorliegen haben könnenwir zu einem beliebigen Tastaturlayout uns eine Lernreihenfolgeüberlegen, in welcher wir die Buchstaben lernen wollen.

Z.b. (enit)(ar)(ud)(os)(ch)(lg) usw.

Nun geben in Liste eins Wörter aus, die mit {e,n,i,t} geschrieben werdenkönnen.Dann geben wir eine Liste zwei mit Wörtern aus, die mit {e,n,i,t,a,r}geschrieben werden könne, wobei "a" oder "r" mindestens einmal vorkommenmüssen.

usw. usf.
Daraus kann man dann Lernlektionen machen.

Derzeit haben mein Bruder und ich Urlaub, könnten das Programm alsosofern interesse besteht in 2 Wochen fertigstellen.Weitere Vorschläge zu Dingen, die das Programm können soll könnt ihrnatürlich auch gerne liefern.


Mit freundlichen Grüßen

Michael Gattinger



Am 17.04.2011 19:06, schrieb Pascal Hauck:

Am Sonntag, 17. April 2011, 16:15:47 schrieb Michael Gattinger:

Ich bin seit 2 Monaten dabei mir ein Programm zu schreiben

Ich bin ungern derjenige, der eine engagierte Arbeit möglicherweise hinfällig
macht. Dennoch wundere ich mich darüber, dass so leichtfertig und
unhinterfragt eine Enzyklopädie als sinnvoller Korpus erachtet wird.

Neo2 ist bereits eine gute Tastatur, bei einer zukünftigen Neo3 darf man
durchaus von „hochoptimiert“ sprechen. Eine so weitgehende Optimierung setzt
natürlich voraus, dass sämtliche Zwischenschritte – insbesondere die Wahl des
Korpus – den gleichen hohen Ansprüchen genügen.
Genau dies sehe ich bei der Wikipedia für unsere Zwecke nicht geben!

Natürlich ist die umfangreiche, freie und leicht zugängliche Textmenge
verführerisch – jedoch deckt sich der lexikalische Schreibstil nicht mit dem
eines gängigen Anwenders.

Das vermutlich einfachste und zugleich einsichtigest Beispiel ist das Wort
„ich“. Wärend fast keine E‑Mail ohne dieses Wort auskommt, hat ein
Stichprobentest in nur einem von 10 Wikipedia‑Artikeln einen Treffer egeben –
und zwar in einem Zitat. Gleiches gilt für andere Wörter: du, wir, uns, mir,
mich, sich, …

Da ein Großteil der am PC geschriebenen Texte zur Kommunikation gehören
(E‑Mail, Chat, IRC, Twitter, soziale Netzwerke, …) sehe ich die einen
enzyklopädischen Korpus kritisch.
Jede darauf aufbauende Optimierung ist zumindest fraglich und kann nicht
zweifelsfrei behaupten, die selbst gesteckten hohen Ansprüche zu erfüllen.


Skeptische Grüße,
Pascal

Re: [Neo] Wikipedia-Korpus selbstgemacht

Antwort per Email an