Hallo allerseits,

Karl Köckemann ſchrieb am 31.12.2009 11:24 Uhr:
Arbeitet jemand an der Erschließung eines anderen Textkörpers wie z. B. 
Wikipedia?

Meines Wissens derzeitig nicht. Ich selbst hatte mal damit angefangen und ein naives kleines Java-Programm geschrieben, dass einen gegebenen Wikipedia-Dump (pages-articles.xml.bz2) ausliest und daraus die absoluten Häufigkeiten, Bi- und Trigramme ermittelt. Zu Testzwecken habe ich das dann auch mal auf einen Dump der plattdeutschen Wikipedia (ist schön klein und läuft damit schnell durch :-)) angewendet, hier sind die drei Top 20’er:

         Absolute Häufigkeiten:
         37000 mal: '
         37703 mal: g
         38954 mal: u
         45153 mal: c
         47087 mal: d
         50142 mal: :
         52729 mal: h
         61857 mal: l
         66318 mal: o
         71890 mal: U+000a (Enter)
         77076 mal: s
         82202 mal: t
         89399 mal: r
         97252 mal: [
         97255 mal: ]
        100975 mal: n
        102430 mal: i
        107682 mal: a
        159930 mal: e
        198256 mal: U+0020 (Leerzeichen)

         Bigramme:
         12235 mal: U+000aU+000a
         12579 mal: sU+0020
         12820 mal: sc
         13483 mal: is
         14774 mal: or
         14979 mal: de
         15331 mal: in
         16269 mal: an
         16413 mal: rU+0020
         17121 mal: te
         19967 mal: nU+0020
         21438 mal: en
         22150 mal: ''
         22306 mal: eU+0020
         24766 mal: ch
         30122 mal: er
         34001 mal: U+000a[
         35550 mal: ]U+000a
         48328 mal: [[
         48433 mal: ]]

         Trigramme:
          4621 mal: enn
          4703 mal: U+0020de
          4719 mal: isc
          4792 mal: inU+0020
          4935 mal: a]]
          5037 mal: :19
          5364 mal: cht
          5372 mal: ego
          5423 mal: gor
          5454 mal: teg
          5592 mal: ]]U+0020
          6103 mal: der
          6804 mal: ate
          8541 mal: '''
          9764 mal: U+0020[[
         12126 mal: sch
         12337 mal: erU+0020
         31028 mal: ]U+000a[
         33916 mal: U+000a[[
         35256 mal: ]]U+000a

Wie man unschwer sieht, wertet das Programm noch ganz stur die unaufgearbeiteten Quelltexte aus und behandelt auch alle Unicode-Zeichen gleich, d.h. vor einer produktiven Nutzung der Resultate für einen Dump der deutschsprachigen Wikipedia müsste man unbedingt noch einen »Dewikifizierungsfilter« einbauen.

Trotzdem finde ich ich es durchaus interessant, dass ohne diesen die beiden wichtigsten Bigramme [[ und ]] (für die internen [[Link]]s in [[Wikisyntax]]) sind (so erklären sich auch die hohen Werte von [ und ] bei den absoluten Häufigkeiten). Das unterstreicht mal wieder, wie wichtig und nützlich die dritte Neo-Ebene ist!

Aber auch, dass etwa e<Space> schon das siebwichtigste Bigramm ist, finde ich interessant, auch wenn das für eine automatische Optimierung nicht relevant ist.

Ansonsten war ich sehr davon überrascht, wie selbst die plattdeutsche WP vor Sonderzeichen strotzt; hier ist etwa exemplarisch eine Liste aller Zeichen, die exakt fünf mal im Dump auftauchten:

° Ŝ ŋ ň ư ơ ɐ ʃ ː ̯ ̀ Ρ Λ Հ շ Լ ף ք ۳ ܟ ܓ ހ ঙ ূ उ ख ષ ે ஒ ீ ೇ ೋ ೩ ె ే ద ീ ഇ ച ദ ະ ລ ื ང ု Ꭹ Ꮵ ማ ኛ ኒ ᑳ ᑕ ᓈ ់ ន ូ ộ ớ ữ † ポ ァ ソ ゴ 南 勒 列 林 會 政 格 真皇 米 路 電 물 루 마 비 동 노 제 정 음 성 수 ? ? 타 =

Wahrscheinlich sind die meisten davon auf IPA-Erklärungen und Interwikilinks zu andersſprachlichen WPs (die bei der ›Dewikifizierung‹ entfallen würden) zurückzuführen. Hingegen kommt das é immerhin 713 mal vor.

Bei Interesse kann ich gerne die komplette Statistik und die Java-Quelltexte (sind allerdings ziemlich gruselig) herumschicken, aber ich habe das Programm schon länger nicht mehr weiterentwickelt (auch, da wir uns noch nicht darauf geeinigt haben, ob die WP überhaupt eine brauchbare Korpusquelle wäre).


Viele Grüße,
Dennis-ſ

Antwort per Email an