Buchstabenhäufigkeiten der Datei sentences.txt des Leipziger Textkorus:
http://corpora.informatik.uni-leipzig.de/resources/flatfiles/de05_3M.zip

Die in der Datei sentences.txt enthaltenen Zeilennummern sowie das
darauf folgende Tabulatorzeichen wurden nicht mitgezählt.

Diesesmal konnte die gesamte Datei erfasst werden (3.000.000 Sätze).

332.948.015 Zeichen insgesamt
Rang | Zeichen | Code | absolute | relative Häufikeit
1       SP      (032)   44.190.175      0,13272394791
2       e       (101)   44.034.982      0,13225783010
3       n       (110)   27.012.723      0,08113195389
4       i       (105)   21.248.957      0,06382064479
5       r       (114)   20.516.293      0,06162010907
6       t       (116)   16.948.435      0,05090414790
7       s       (115)   15.558.976      0,04673094687
8       a       (097)   15.035.255      0,04515796558
9       d       (100)   11.735.189      0,03524631015
10      h       (104)   11.233.262      0,03373878652
11      l       (108)   9.872.084       0,02965052667
12      u       (117)   9.798.575       0,02942974446
13      g       (103)   7.535.865       0,02263375861
14      c       (099)   7.330.509       0,02201697764
15      o       (111)   7.301.993       0,02193133063
16      m       (109)   6.356.321       0,01909103137
17      b       (098)   4.481.972       0,01346147686
18      f       (102)   4.028.402       0,01209919212
19      k       (107)   3.254.558       0,00977497343
20      w       (119)   3.151.564       0,00946563385
21      .       (046)   3.137.643       0,00942382251
22      z       (122)   3.034.051       0,00911268686
23      ,       (044)   2.703.386       0,00811954383
24      p       (112)   1.965.184       0,00590237488
25      v       (118)   1.949.373       0,00585488699
26      S       (083)   1.885.020       0,00566160456
27      ü       (252)   1.820.152       0,00546677535
28      ä       (228)   1.601.410       0,00480978990
29      D       (068)   1.584.286       0,00475835845
30      A       (065)   1.342.335       0,00403166542
31      B       (066)   1.268.455       0,00380976892
32      M       (077)   1.189.901       0,00357383419
33      E       (069)   975.776 0,00293071578
34      -       (045)   952.895 0,00286199334
35      K       (075)   900.852 0,00270568365
36      P       (080)   893.463 0,00268349099
37      G       (071)   838.043 0,00251703858
38      F       (070)   836.033 0,00251100160
39      W       (087)   820.790 0,00246521968
40      "       (034)   773.665 0,00232368107
41      ö       (246)   705.221 0,00211811144
42      0       (048)   648.588 0,00194801582
43      ß       (223)   647.158 0,00194372085
44      V       (086)   645.314 0,00193818245
45      T       (084)   641.903 0,00192793761
46      R       (082)   638.318 0,00191717016
47      H       (072)   637.913 0,00191595376
48      L       (076)   539.124 0,00161924377
49      I       (073)   538.236 0,00161657669
50      U       (085)   500.267 0,00150253787
51      N       (078)   468.276 0,00140645380
52      1       (049)   450.869 0,00135417236
53      J       (074)   422.122 0,00126783156
54      Z       (090)   394.290 0,00118423893
55      j       (106)   343.111 0,00103052424
56      C       (067)   316.041 0,00094922026
57      2       (050)   303.441 0,00091137651
58      :       (058)   300.661 0,00090302686
59      y       (121)   284.444 0,00085431955
60      9       (057)   262.066 0,00078710786
61      O       (079)   241.790 0,00072620947
62      5       (053)   206.937 0,00062152946
63      3       (051)   188.833 0,00056715461
64      (       (040)   174.532 0,00052420195
65      )       (041)   174.471 0,00052401874
66      4       (052)   158.437 0,00047586107
67      x       (120)   147.194 0,00044209304
68      6       (054)   134.086 0,00040272353
69      8       (056)   130.903 0,00039316348
70      7       (055)   119.265 0,00035820907
71      '       (039)   90.805  0,00027273026
72      ?       (063)   82.395  0,00024747107
73      Ü       (220)   47.713  0,00014330465
74      q       (113)   39.615  0,00011898254
75      Q       (081)   33.107  0,00009943594
76      /       (047)   32.629  0,00009800028
77      Ö       (214)   27.664  0,00008308805
78      ;       (059)   24.770  0,00007439600
79      Ä       (196)   22.519  0,00006763518
80      !       (033)   20.011  0,00006010248
81      Y       (089)   17.551  0,00005271393
82      é       (233)   12.773  0,00003836335
83      &       (038)   6.748   0,00002026743
84      X       (088)   6.313   0,00001896092
85      %       (037)   2.646   0,00000794719
86      +       (043)   1.664   0,00000499778
87      á       (225)   1.482   0,00000445115
88      `       (096)   1.322   0,00000397059
89      §       (167)   1.246   0,00000374233
90      è       (232)   1.081   0,00000324675
91      „       (132)   932     0,00000279924
92      “       (147)   894     0,00000268510
93      ó       (243)   828     0,00000248687
94      à       (224)   680     0,00000204236
95      í       (237)   655     0,00000196727
96      [       (091)   601     0,00000180509
97      ]       (093)   596     0,00000179007
98      –       (150)   582     0,00000174802
99      ç       (231)   559     0,00000167894
100     ë       (235)   508     0,00000152576
101     =       (061)   414     0,00000124344
102     »       (187)   412     0,00000123743
103     «       (171)   390     0,00000117135
104     #       (035)   316     0,00000094910
105     ô       (244)   269     0,00000080793
106     ñ       (241)   262     0,00000078691
107     @       (064)   231     0,00000069380
108     $       (036)   206     0,00000061872
109     ú       (250)   194     0,00000058267
110     ã       (227)   184     0,00000055264
111     â       (226)   153     0,00000045953
112     ø       (248)   150     0,00000045052
113     ê       (234)   137     0,00000041148
114     É       (201)   120     0,00000036042
115     >       (062)   113     0,00000033939
116     <       (060)   93      0,00000027932
117     _       (095)   80      0,00000024028
118     Ç       (199)   72      0,00000021625
119     î       (238)   67      0,00000020123
120     ï       (239)   66      0,00000019823
121     æ       (230)   52      0,00000015618
122     ¤       (164)   51      0,00000015318
123     å       (229)   46      0,00000013816
124     ò       (242)   41      0,00000012314
125     °       (176)   41      0,00000012314
126     Á       (193)   34      0,00000010212
127     Å       (197)   32      0,00000009611
128     ^       (094)   23      0,00000006908
129     ì       (236)   23      0,00000006908
130     û       (251)   23      0,00000006908
131     ù       (249)   18      0,00000005406
132     ²       (178)   17      0,00000005106
133     ’       (146)   14      0,00000004205
134     \       (092)   12      0,00000003604
135     µ       (181)   12      0,00000003604
136     Ø       (216)   11      0,00000003304
137     ½       (189)   9       0,00000002703
138     ×       (215)   9       0,00000002703
139     ¥       (165)   9       0,00000002703
140     È       (200)   8       0,00000002403
141     Ô       (212)   8       0,00000002403
142     õ       (245)   8       0,00000002403
143     }       (125)   6       0,00000001802
144     Ó       (211)   6       0,00000001802
145     ‘       (145)   6       0,00000001802
146     £       (163)   6       0,00000001802
147     {       (123)   5       0,00000001502
148     ±       (177)   4       0,00000001201
149     ®       (174)   4       0,00000001201
150     Ò       (210)   3       0,00000000901
151     ´       (180)   3       0,00000000901
152     ‚       (130)   3       0,00000000901
153     º       (186)   3       0,00000000901
154     ¿       (191)   3       0,00000000901
155     Í       (205)   3       0,00000000901
156     Õ       (213)   2       0,00000000601
157     Î       (206)   2       0,00000000601
158     Ë       (203)   2       0,00000000601
159     Ú       (218)   2       0,00000000601
160     ¼       (188)   2       0,00000000601
161     ”       (148)   2       0,00000000601
162     ©       (169)   1       0,00000000300
163     Ñ       (209)   1       0,00000000300
164     ÿ       (255)   1       0,00000000300
165     Ã       (195)   1       0,00000000300
166     À       (192)   1       0,00000000300
167     ³       (179)   1       0,00000000300
168     Œ       (140)   1       0,00000000300
169     ª       (170)   1       0,00000000300
170     ·       (183)   1       0,00000000300
171     ¾       (190)   1       0,00000000300
172     ­       (173)   1       0,00000000300
173     Û       (219)   1       0,00000000300
174     ÷       (247)   1       0,00000000300
175     ý       (253)   1       0,00000000300
176     Ê       (202)   1       0,00000000300

Mit SP auf Rang 1 ist das Leerzeichen gemeint. Zeilenumbrüche wurden
nicht mitgezählt. Da jede Zeile genau einen Satz enthält, sind es genau
3.000.000 Zeilenumbrüche.
Bedenkt man, dass Absätze aus mehr als einem Satz bestehen, bei denen
ein Leerzeichen hinter dem Satzendezeichen kommt, dann ist die
Häufikeit von Leerzeichen tatsächlich noch ein wenige höher.

8.136 Bigramme sind ermittelt, aber ich bekomme die Textdatei nicht
so in Tabellenform gebracht, wie ich es mir wünsche.
Das Arbeiten mit regulären Ausdrücken fällt mir schwer. So wird es noch
eine Weile dauern, bis die Bigramme fertig sind.

Mit netten Grüßen
Karl



Antwort per Email an