Am Thu, 3 Dec 2009 08:48:33 +0100
schrieb Ulf Bro <ulf....@web.de>:

> Am Donnerstag, 3. Dezember 2009 08:39 schrieb Gemeinschaftspraxis:
> tr '[:upper:]' '[:lower:]' dingsbums.txt | grep -o 
> '[abcdefghijklmnopqrstuvwxyzäöüß]\{2\}' | sort | uniq -c | sort -nr > 
> bigramme.txt

Diesesmal ging es um andere Details. Deine vorherigen Anleitungen
kamen bei der Arbeit hilfreich entgegen. Vielen Dank dafür!


Die Dateien mit den extrahierten Zeichenhäufigkeiten und Bigrammen
zum 3-Millionen-Sätze-Textkorpus der Uni Leizig können dort
heruntergeladen werden:
http://freenet-homepage.de/nexusboard/Neo/Zeichen.txt
http://freenet-homepage.de/nexusboard/Neo/Bigramme.txt

Das Leerzeichen ist darin als SP geschrieben. Bei den Bigrammen sind
das erste und das zweite Zeichen durch ein Tabstop getrennt, damit
daraus später vielleicht eine Bigramm-Matrix erstellt werden kann.

Erzeugt wurden die n-Gramme mit dem Ngram Statistics Package (NSP):
http://www.d.umn.edu/~tpederse/nsp.html

Trigramme lassen sich damit ebenfalls erstellen, allerdings befürchte
ich, dass das komplexe Programm dafür enorm lange brauchen könnte.

Mit Leerzeichen sieht die Rangfolge der Bigramme anders als gewohnt aus,
z. B. der Anfang bis zum ersten Großbuchstabe:
332.948.014 Zeichen insgesamt, basierend auf dem
3-Millionen-Zeilen-Textkorpus der Uni Leipzig
Rang | erstes Zeichen | 2. Zeichen | absolute | reltaive Häufigkeit | |
abs. Häuf. 1. Zeichen | Code 1. Zeichen | abs. Häuf. 2. Zeichen | Code 2. 
Zeichen
1       e       n       10.162.743
0,03052351290           44.034.982      101     27.012.723      110
2       e       r       10.028.050
0,03011896626           44.034.982      101     20.516.293      114
3       n       SP      9.055.079
0,02719667521           27.012.723      110     44.190.175      32
4       c       h       6.697.453
0,02011561180           7.330.509       99      11.233.262      104
5       e       SP      6.434.370
0,01932544941           44.034.982      101     44.190.175      32
6       r       SP      5.985.238
0,01797649407           20.516.293      114     44.190.175      32
7       SP      d       5.707.006
0,01714083208           44.190.175      32      11.735.189      100
8       d       e       5.500.778
0,01652143208           11.735.189      100     44.034.982      101
9       e       i       4.811.420
0,01445096471           44.034.982      101     21.248.957      105
10      t       e       4.744.611
0,01425030575           16.948.435      116     44.034.982      101
11      i       e       4.562.989
0,01370480918           21.248.957      105     44.034.982      101
12      i       n       4.491.104
0,01348890461           21.248.957      105     27.012.723      110
13      t       SP      4.021.641
0,01207888568           16.948.435      116     44.190.175      32
14      g       e       3.595.153
0,01079794097           7.535.865       103     44.034.982      101
15      s       SP      3.318.011
0,00996555276           15.558.976      115     44.190.175      32
16      n       d       3.191.927
0,00958686301           27.012.723      110     11.735.189      100
17      u       n       3.013.906
0,00905218194           9.798.575       117     27.012.723      110
18      s       t       2.760.391
0,00829075677           15.558.976      115     16.948.435      116
19      n       e       2.647.295
0,00795107611           27.012.723      110     44.034.982      101
20      ,       SP      2.607.947
0,00783289550           2.703.386       44      44.190.175      32
21      e       s       2.570.091
0,00771919607           44.034.982      101     15.558.976      115
22      a       n       2.549.035
0,00765595496           15.035.255      97      27.012.723      110
23      SP      s       2.492.624
0,00748652611           44.190.175      32      15.558.976      115
24      b       e       2.470.157
0,00741904711           4.481.972       98      44.034.982      101
25      r       e       2.393.560
0,00718899017           20.516.293      114     44.034.982      101
26      h       e       2.385.922
0,00716604965           11.233.262      104     44.034.982      101
27      SP      e       2.368.191
0,00711279509           44.190.175      32      44.034.982      101
28      SP      a       2.337.790
0,00702148654           44.190.175      32      15.035.255      97
29      i       c       2.178.853
0,00654412373           21.248.957      105     7.330.509       99
30      i       t       2.166.754
0,00650778473           21.248.957      105     16.948.435      116
31      n       g       2.074.787
0,00623156443           27.012.723      110     7.535.865       103
32      SP      i       2.012.289
0,00604385344           44.190.175      32      21.248.957      105
33      d       i       2.002.362
0,00601403798           11.735.189      100     21.248.957      105
34      s       c       1.973.817
0,00592830387           15.558.976      115     7.330.509       99
35      m       SP      1.961.335
0,00589081453           6.356.321       109     44.190.175      32
36      s       e       1.949.206
0,00585438542           15.558.976      115     44.034.982      101
37      i       s       1.931.955
0,00580257253           21.248.957      105     15.558.976      115
38      a       u       1.838.855
0,00552294930           15.035.255      97      9.798.575       117
39      h       SP      1.817.246
0,00545804727           11.233.262      104     44.190.175      32
40      l       e       1.775.078
0,00533139687           9.872.084       108     44.034.982      101
41      d       SP      1.742.180
0,00523258865           11.735.189      100     44.190.175      32
42      SP      w       1.706.226
0,00512460182           44.190.175      32      3.151.564       119
43      e       l       1.673.856
0,00502737944           44.034.982      101     9.872.084       108
44      o       n       1.671.005
0,00501881654           7.301.993       111     27.012.723      110
45      l       i       1.589.147
0,00477295834           9.872.084       108     21.248.957      105
46      a       l       1.520.152
0,00456573380           15.035.255      97      9.872.084       108
47      n       t       1.483.143
0,00445457831           27.012.723      110     16.948.435      116
48      SP      S       1.444.446
0,00433835295           44.190.175      32
1.885.019       83


Mit netten Grüßen
Karl



Antwort per Email an