Am Sat, 28 Nov 2009 23:17:49 +0100 schrieb Pascal Hauck <n...@pascalhauck.de>:
> Am Samstag, 28. November 2009 17:53:34 schrieb Karl Köckemann: > > einen Textkörper gäbe, den alle einheitlich verwenden könnten > > Nicht falsch. Dennoch rate ich dazu, die Auswertungsprogramme zu Neo3 > derart zu gestalten, dass jederzeit auch andere Textcorpora verwendet > werden können, so dass das die Qualität der Belegung für > unterschiedliche Anwendungen untersucht werden kann oder sich > einzelne eine sehr persönliche Textgrundlage mit Hilfe eines > Keyloggers erstellen können. So meinte ich das. Ein kleiner einheitlicher Textkörper der bei verschiedenen Personen zur gleichen Konfiguration dasselbe Ergebnis liefern soll, mag der Kontrolle dienen, ob die Auswertungsprogramme das tun, was sie sollen. Soeben konnte eine umfangreichere Zeichenhäufigkeitsliste erstellt werden. Grundlage sind die ersten 2 Millionen Sätze des 3 Millionen Sätze fassenden, auf deutsche Sprache bereinigten Textkorpus: http://corpora.informatik.uni-leipzig.de/resources/flatfiles/de05_3M.zip Die im Textkorpus enthaltenen Zeilennummern wurden vor der Zeichenzählung entfernt. Zeilen: 2.000.001 (am Dateiende stand eine Leerzeile) Leerzeilen: 1 Wörter: 31.456.974 Zeichen mit LFCR: 225.940.467 Zeichen: 221.940.463 (als Bezugswert verwendet) Zeichen ohne Space: 192.483.491 längste Zeile: 256 Zeichen incl. LFCR Rang | Zeichen | ASCII | absolute | relative Häufigkeit 1 SP (032) 29.456.974 0,1327246668 2 e (101) 29.349.416 0,1322400413 3 n (110) 18.005.865 0,0811292576 4 i (105) 14.163.573 0,0638169931 5 r (114) 13.675.582 0,0616182458 6 t (116) 11.294.004 0,0508875392 7 s (115) 10.371.602 0,0467314606 8 a (097) 10.024.043 0,0451654595 9 d (100) 7.822.099 0,0352441321 10 h (104) 7.487.817 0,0337379534 11 l (108) 6.581.471 0,0296542186 12 u (117) 6.531.832 0,0294305595 13 g (103) 5.025.180 0,0226420182 14 c (099) 4.884.824 0,0220096144 15 o (111) 4.866.093 0,0219252178 16 m (109) 4.237.507 0,0190929898 17 b (098) 2.988.242 0,0134641604 18 f (102) 2.685.867 0,0121017455 19 k (107) 2.170.999 0,0097818981 20 w (119) 2.100.551 0,0094644797 21 . (046) 2.092.284 0,0094272309 22 z (122) 2.021.359 0,0091076633 23 , (044) 1.803.065 0,0081240932 24 p (112) 1.309.975 0,0059023712 25 v (118) 1.299.513 0,0058552324 26 S (083) 1.256.291 0,0056604865 27 ü (252) 1.213.934 0,0054696380 28 ä (228) 1.067.934 0,0048118040 29 D (068) 1.055.892 0,0047575462 30 A (065) 894.584 0,0040307386 31 B (066) 845.220 0,0038083186 32 M (077) 793.298 0,0035743730 33 E (069) 650.969 0,0029330794 34 - (045) 635.291 0,0028624388 35 K (075) 600.271 0,0027046488 36 P (080) 595.839 0,0026846794 37 G (071) 558.746 0,0025175490 38 F (070) 557.981 0,0025141022 39 W (087) 546.502 0,0024623811 40 " (034) 516.191 0,0023258084 41 ö (246) 470.302 0,0021190458 42 0 (048) 432.493 0,0019486893 43 ß (223) 431.337 0,0019434807 44 V (086) 429.807 0,0019365869 45 T (084) 427.174 0,0019247234 46 H (072) 425.663 0,0019179153 47 R (082) 425.394 0,0019167032 48 L (076) 359.394 0,0016193262 49 I (073) 358.559 0,0016155639 50 U (085) 334.060 0,0015051784 51 N (078) 312.499 0,0014080308 52 1 (049) 300.682 0,0013547868 53 J (074) 281.860 0,0012699802 54 Z (090) 263.164 0,0011857414 55 j (106) 228.764 0,0010307449 56 C (067) 210.549 0,0009486733 57 2 (050) 202.687 0,0009132494 58 : (058) 200.924 0,0009053059 59 y (121) 189.569 0,0008541435 60 9 (057) 174.843 0,0007877924 61 O (079) 161.240 0,0007265011 62 5 (053) 138.237 0,0006228562 63 3 (051) 126.035 0,0005678775 64 ( (040) 116.248 0,0005237801 65 ) (041) 116.215 0,0005236314 66 4 (052) 105.580 0,0004757132 67 x (120) 98.046 0,0004417671 68 6 (054) 89.528 0,0004033875 69 8 (056) 87.610 0,0003947455 70 7 (055) 79.581 0,0003585691 71 ' (039) 60.589 0,0002729966 72 ? (063) 54.815 0,0002469807 73 Ü (220) 31.776 0,0001431735 74 q (113) 26.526 0,0001195185 75 Q (081) 21.964 0,0000989635 76 / (047) 21.638 0,0000974946 77 Ö (214) 18.553 0,0000835945 78 ; (059) 16.586 0,0000747318 79 Ä (196) 14.967 0,0000674370 80 ! (033) 13.415 0,0000604441 81 Y (089) 11.799 0,0000531629 82 é (233) 8.517 0,0000383752 83 & (038) 4.506 0,0000203027 84 X (088) 4.227 0,0000190456 85 % (037) 1.772 0,0000079841 86 + (043) 1.126 0,0000050734 87 á (225) 969 0,0000043660 88 § (167) 873 0,0000039335 89 ` (096) 865 0,0000038974 90 è (232) 759 0,0000034198 91 „ (132) 624 0,0000028116 92 “ (147) 607 0,0000027350 93 ó (243) 562 0,0000025322 94 í (237) 466 0,0000020997 95 à (224) 450 0,0000020276 96 – (150) 390 0,0000017572 97 [ (091) 380 0,0000017122 98 ] (093) 376 0,0000016941 99 ç (231) 368 0,0000016581 100 ë (235) 335 0,0000015094 101 = (061) 283 0,0000012751 102 » (187) 253 0,0000011399 103 « (171) 241 0,0000010859 104 # (035) 215 0,0000009687 105 ô (244) 175 0,0000007885 106 ñ (241) 172 0,0000007750 107 @ (064) 158 0,0000007119 108 ú (250) 138 0,0000006218 109 $ (036) 132 0,0000005948 110 ã (227) 115 0,0000005182 111 â (226) 104 0,0000004686 112 ø (248) 103 0,0000004641 113 ê (234) 94 0,0000004235 114 É (201) 84 0,0000003785 115 > (062) 65 0,0000002929 116 _ (095) 53 0,0000002388 117 Ç (199) 51 0,0000002298 118 < (060) 46 0,0000002073 119 î (238) 45 0,0000002028 120 ï (239) 42 0,0000001892 121 æ (230) 32 0,0000001442 122 ¤ (164) 31 0,0000001397 123 ò (242) 31 0,0000001397 124 å (229) 26 0,0000001171 125 Á (193) 25 0,0000001126 126 Å (197) 24 0,0000001081 127 ° (176) 19 0,0000000856 128 û (251) 17 0,0000000766 129 ù (249) 14 0,0000000631 130 ^ (094) 13 0,0000000586 131 ì (236) 13 0,0000000586 132 ² (178) 11 0,0000000496 133 ’ (146) 8 0,0000000360 134 µ (181) 8 0,0000000360 135 ½ (189) 8 0,0000000360 136 Ô (212) 7 0,0000000315 137 Ø (216) 7 0,0000000315 138 \ (092) 6 0,0000000270 139 ¥ (165) 6 0,0000000270 140 } (125) 5 0,0000000225 141 ‘ (145) 5 0,0000000225 142 × (215) 5 0,0000000225 143 õ (245) 5 0,0000000225 144 { (123) 4 0,0000000180 145 È (200) 4 0,0000000180 146 Ó (211) 4 0,0000000180 147 ® (174) 3 0,0000000135 148 º (186) 3 0,0000000135 149 ” (148) 2 0,0000000090 150 £ (163) 2 0,0000000090 151 ± (177) 2 0,0000000090 152 Í (205) 2 0,0000000090 153 Î (206) 2 0,0000000090 154 Ò (210) 2 0,0000000090 155 Ú (218) 2 0,0000000090 156 © (169) 1 0,0000000045 157 (173) 1 0,0000000045 158 ³ (179) 1 0,0000000045 159 ´ (180) 1 0,0000000045 160 · (183) 1 0,0000000045 161 ¼ (188) 1 0,0000000045 162 ¿ (191) 1 0,0000000045 163 À (192) 1 0,0000000045 164 Ê (202) 1 0,0000000045 165 Ë (203) 1 0,0000000045 166 Ñ (209) 1 0,0000000045 167 Û (219) 1 0,0000000045 168 ý (253) 1 0,0000000045 169 ÿ (255) 1 0,0000000045 (48) LF (010) 2.000.001 0,0090114302 (48) CR (013) 2.000.001 0,0090114302 Mit SP bei Rang 1 ist das Leerzeichen gemeint. Da jede Zeile des Textkörpers genau einen Satz enthielt, wurden die Zeichen für den Zeilenvorschub (LF, CR) ans Ende der Tabelle gestellt. Darunter kann man sich die Enter-Taste vorstellen. Unter der Annahme, dass durchschnittlich 5 Sätze in einem Absatz stehen könnten, wurden die beiden Zeichen in Klammern bei etwa Rang 48 eingeschätzt, um eine Annäherung für die Entertaste zu bekommen. Ermittelt wurden die absoluten Häufigkeiten mit dem nur die ASCII-Zeichen erfassenden Programm http://www.sttmedia.com/charactercounter Bi- und Trigramme lassen sich mit dem Programm ebenfalls bestimmen, allerdings nicht für eine so große Datengrundlage - und es unterscheidet es in dem Modus nicht Klein- von Großbuchstaben. Die relativen Häufigkeiten wurden in einem Tabellenkalkulationsprogramm bestimmt, wobei als Gesamtzeichenanzahl 221.940.463 eingesetzt wurde. Mit anderen Buchstabenhäufigkeitsangaben wurde das Ergebnis noch nicht verglichen - ist mir jetzt spät genug geworden. Vielleicht könnt ihr mit der Zeichenhäufigkeitsliste etwas anfangen. Immerhin basiert sie auf 1 % der deutschsprachigen Internetseiten und auf Zeitungsartikel. Mit netten Grüßen Karl