Hallo allerseits,
Karl Köckemann ſchrieb am 31.12.2009 11:24 Uhr:
Arbeitet jemand an der Erschließung eines anderen Textkörpers wie z. B.
Wikipedia?
Meines Wissens derzeitig nicht. Ich selbst hatte mal damit angefangen
und ein naives kleines Java-Programm geschrieben, dass einen gegebenen
Wikipedia-Dump (pages-articles.xml.bz2) ausliest und daraus die
absoluten Häufigkeiten, Bi- und Trigramme ermittelt. Zu Testzwecken habe
ich das dann auch mal auf einen Dump der plattdeutschen Wikipedia (ist
schön klein und läuft damit schnell durch :-)) angewendet, hier sind die
drei Top 20’er:
Absolute Häufigkeiten:
37000 mal: '
37703 mal: g
38954 mal: u
45153 mal: c
47087 mal: d
50142 mal: :
52729 mal: h
61857 mal: l
66318 mal: o
71890 mal: U+000a (Enter)
77076 mal: s
82202 mal: t
89399 mal: r
97252 mal: [
97255 mal: ]
100975 mal: n
102430 mal: i
107682 mal: a
159930 mal: e
198256 mal: U+0020 (Leerzeichen)
Bigramme:
12235 mal: U+000aU+000a
12579 mal: sU+0020
12820 mal: sc
13483 mal: is
14774 mal: or
14979 mal: de
15331 mal: in
16269 mal: an
16413 mal: rU+0020
17121 mal: te
19967 mal: nU+0020
21438 mal: en
22150 mal: ''
22306 mal: eU+0020
24766 mal: ch
30122 mal: er
34001 mal: U+000a[
35550 mal: ]U+000a
48328 mal: [[
48433 mal: ]]
Trigramme:
4621 mal: enn
4703 mal: U+0020de
4719 mal: isc
4792 mal: inU+0020
4935 mal: a]]
5037 mal: :19
5364 mal: cht
5372 mal: ego
5423 mal: gor
5454 mal: teg
5592 mal: ]]U+0020
6103 mal: der
6804 mal: ate
8541 mal: '''
9764 mal: U+0020[[
12126 mal: sch
12337 mal: erU+0020
31028 mal: ]U+000a[
33916 mal: U+000a[[
35256 mal: ]]U+000a
Wie man unschwer sieht, wertet das Programm noch ganz stur die
unaufgearbeiteten Quelltexte aus und behandelt auch alle Unicode-Zeichen
gleich, d.h. vor einer produktiven Nutzung der Resultate für einen Dump
der deutschsprachigen Wikipedia müsste man unbedingt noch einen
»Dewikifizierungsfilter« einbauen.
Trotzdem finde ich ich es durchaus interessant, dass ohne diesen die
beiden wichtigsten Bigramme [[ und ]] (für die internen [[Link]]s in
[[Wikisyntax]]) sind (so erklären sich auch die hohen Werte von [ und ]
bei den absoluten Häufigkeiten). Das unterstreicht mal wieder, wie
wichtig und nützlich die dritte Neo-Ebene ist!
Aber auch, dass etwa e<Space> schon das siebwichtigste Bigramm ist,
finde ich interessant, auch wenn das für eine automatische Optimierung
nicht relevant ist.
Ansonsten war ich sehr davon überrascht, wie selbst die plattdeutsche WP
vor Sonderzeichen strotzt; hier ist etwa exemplarisch eine Liste aller
Zeichen, die exakt fünf mal im Dump auftauchten:
° Ŝ ŋ ň ư ơ ɐ ʃ ː ̯ ̀ Ρ Λ Հ շ Լ ף ք ۳ ܟ ܓ ހ ঙ ূ उ ख ષ ે ஒ ீ ೇ ೋ ೩ ె ే ద ീ ഇ ച
ദ ະ ລ ื ང ု Ꭹ Ꮵ ማ ኛ ኒ ᑳ ᑕ ᓈ ់ ន ូ ộ ớ ữ † ポ ァ ソ ゴ 南 勒 列 林 會 政 格
真皇 米 路 電 물 루 마 비 동 노 제 정 음 성 수 ? ? 타 =
Wahrscheinlich sind die meisten davon auf IPA-Erklärungen und
Interwikilinks zu andersſprachlichen WPs (die bei der ›Dewikifizierung‹
entfallen würden) zurückzuführen. Hingegen kommt das é immerhin 713 mal vor.
Bei Interesse kann ich gerne die komplette Statistik und die
Java-Quelltexte (sind allerdings ziemlich gruselig) herumschicken, aber
ich habe das Programm schon länger nicht mehr weiterentwickelt (auch, da
wir uns noch nicht darauf geeinigt haben, ob die WP überhaupt eine
brauchbare Korpusquelle wäre).
Viele Grüße,
Dennis-ſ