Re: [Neo] Wie groß muss ein Korpus sein?

Dennis Heidsiek Wed, 06 Jan 2010 03:37:24 -0800

Hallo allerseits,


Karl Köckemann ſchrieb am 31.12.2009 11:24 Uhr:

Arbeitet jemand an der Erschließung eines anderen Textkörpers wie z. B. 
Wikipedia?

Meines Wissens derzeitig nicht. Ich selbst hatte mal damit angefangenund ein naives kleines Java-Programm geschrieben, dass einen gegebenenWikipedia-Dump (pages-articles.xml.bz2) ausliest und daraus dieabsoluten Häufigkeiten, Bi- und Trigramme ermittelt. Zu Testzwecken habeich das dann auch mal auf einen Dump der plattdeutschen Wikipedia (istschön klein und läuft damit schnell durch :-)) angewendet, hier sind diedrei Top 20’er:

         Absolute Häufigkeiten:
         37000 mal: '
         37703 mal: g
         38954 mal: u
         45153 mal: c
         47087 mal: d
         50142 mal: :
         52729 mal: h
         61857 mal: l
         66318 mal: o
         71890 mal: U+000a (Enter)
         77076 mal: s
         82202 mal: t
         89399 mal: r
         97252 mal: [
         97255 mal: ]
        100975 mal: n
        102430 mal: i
        107682 mal: a
        159930 mal: e
        198256 mal: U+0020 (Leerzeichen)

         Bigramme:
         12235 mal: U+000aU+000a
         12579 mal: sU+0020
         12820 mal: sc
         13483 mal: is
         14774 mal: or
         14979 mal: de
         15331 mal: in
         16269 mal: an
         16413 mal: rU+0020
         17121 mal: te
         19967 mal: nU+0020
         21438 mal: en
         22150 mal: ''
         22306 mal: eU+0020
         24766 mal: ch
         30122 mal: er
         34001 mal: U+000a[
         35550 mal: ]U+000a
         48328 mal: [[
         48433 mal: ]]

         Trigramme:
          4621 mal: enn
          4703 mal: U+0020de
          4719 mal: isc
          4792 mal: inU+0020
          4935 mal: a]]
          5037 mal: :19
          5364 mal: cht
          5372 mal: ego
          5423 mal: gor
          5454 mal: teg
          5592 mal: ]]U+0020
          6103 mal: der
          6804 mal: ate
          8541 mal: '''
          9764 mal: U+0020[[
         12126 mal: sch
         12337 mal: erU+0020
         31028 mal: ]U+000a[
         33916 mal: U+000a[[
         35256 mal: ]]U+000a

Wie man unschwer sieht, wertet das Programm noch ganz stur dieunaufgearbeiteten Quelltexte aus und behandelt auch alle Unicode-Zeichengleich, d.h. vor einer produktiven Nutzung der Resultate für einen Dumpder deutschsprachigen Wikipedia müsste man unbedingt noch einen»Dewikifizierungsfilter« einbauen.

Trotzdem finde ich ich es durchaus interessant, dass ohne diesen diebeiden wichtigsten Bigramme [[ und ]] (für die internen [[Link]]s in[[Wikisyntax]]) sind (so erklären sich auch die hohen Werte von [ und ]bei den absoluten Häufigkeiten). Das unterstreicht mal wieder, wiewichtig und nützlich die dritte Neo-Ebene ist!

Aber auch, dass etwa e<Space> schon das siebwichtigste Bigramm ist,finde ich interessant, auch wenn das für eine automatische Optimierungnicht relevant ist.

Ansonsten war ich sehr davon überrascht, wie selbst die plattdeutsche WPvor Sonderzeichen strotzt; hier ist etwa exemplarisch eine Liste allerZeichen, die exakt fünf mal im Dump auftauchten:

° Ŝ ŋ ň ư ơ ɐ ʃ ː ̯ ̀ Ρ Λ Հ շ Լ ף ք ۳ ܟ ܓ ހ ঙ ূ उ ख ષ ે ஒ ீ ೇ ೋ ೩ ె ే ద ീ ഇ ചദ ະ ລ ื ང ု Ꭹ Ꮵ ማ ኛ ኒ ᑳ ᑕ ᓈ ់ ន ូ ộ ớ ữ † ポァソゴ南勒列林會政格真皇米路電 물 루 마 비 동 노 제 정 음 성 수 ? ? 타 ＝

Wahrscheinlich sind die meisten davon auf IPA-Erklärungen undInterwikilinks zu andersſprachlichen WPs (die bei der ›Dewikifizierung‹entfallen würden) zurückzuführen. Hingegen kommt das é immerhin 713 mal vor.

Bei Interesse kann ich gerne die komplette Statistik und dieJava-Quelltexte (sind allerdings ziemlich gruselig) herumschicken, aberich habe das Programm schon länger nicht mehr weiterentwickelt (auch, dawir uns noch nicht darauf geeinigt haben, ob die WP überhaupt einebrauchbare Korpusquelle wäre).



Viele Grüße,
Dennis-ſ

Re: [Neo] Wie groß muss ein Korpus sein?

Antwort per Email an