Am Thu, 3 Dec 2009 08:48:33 +0100 schrieb Ulf Bro <ulf....@web.de>: > Am Donnerstag, 3. Dezember 2009 08:39 schrieb Gemeinschaftspraxis: > tr '[:upper:]' '[:lower:]' dingsbums.txt | grep -o > '[abcdefghijklmnopqrstuvwxyzäöüß]\{2\}' | sort | uniq -c | sort -nr > > bigramme.txt
Diesesmal ging es um andere Details. Deine vorherigen Anleitungen kamen bei der Arbeit hilfreich entgegen. Vielen Dank dafür! Die Dateien mit den extrahierten Zeichenhäufigkeiten und Bigrammen zum 3-Millionen-Sätze-Textkorpus der Uni Leizig können dort heruntergeladen werden: http://freenet-homepage.de/nexusboard/Neo/Zeichen.txt http://freenet-homepage.de/nexusboard/Neo/Bigramme.txt Das Leerzeichen ist darin als SP geschrieben. Bei den Bigrammen sind das erste und das zweite Zeichen durch ein Tabstop getrennt, damit daraus später vielleicht eine Bigramm-Matrix erstellt werden kann. Erzeugt wurden die n-Gramme mit dem Ngram Statistics Package (NSP): http://www.d.umn.edu/~tpederse/nsp.html Trigramme lassen sich damit ebenfalls erstellen, allerdings befürchte ich, dass das komplexe Programm dafür enorm lange brauchen könnte. Mit Leerzeichen sieht die Rangfolge der Bigramme anders als gewohnt aus, z. B. der Anfang bis zum ersten Großbuchstabe: 332.948.014 Zeichen insgesamt, basierend auf dem 3-Millionen-Zeilen-Textkorpus der Uni Leipzig Rang | erstes Zeichen | 2. Zeichen | absolute | reltaive Häufigkeit | | abs. Häuf. 1. Zeichen | Code 1. Zeichen | abs. Häuf. 2. Zeichen | Code 2. Zeichen 1 e n 10.162.743 0,03052351290 44.034.982 101 27.012.723 110 2 e r 10.028.050 0,03011896626 44.034.982 101 20.516.293 114 3 n SP 9.055.079 0,02719667521 27.012.723 110 44.190.175 32 4 c h 6.697.453 0,02011561180 7.330.509 99 11.233.262 104 5 e SP 6.434.370 0,01932544941 44.034.982 101 44.190.175 32 6 r SP 5.985.238 0,01797649407 20.516.293 114 44.190.175 32 7 SP d 5.707.006 0,01714083208 44.190.175 32 11.735.189 100 8 d e 5.500.778 0,01652143208 11.735.189 100 44.034.982 101 9 e i 4.811.420 0,01445096471 44.034.982 101 21.248.957 105 10 t e 4.744.611 0,01425030575 16.948.435 116 44.034.982 101 11 i e 4.562.989 0,01370480918 21.248.957 105 44.034.982 101 12 i n 4.491.104 0,01348890461 21.248.957 105 27.012.723 110 13 t SP 4.021.641 0,01207888568 16.948.435 116 44.190.175 32 14 g e 3.595.153 0,01079794097 7.535.865 103 44.034.982 101 15 s SP 3.318.011 0,00996555276 15.558.976 115 44.190.175 32 16 n d 3.191.927 0,00958686301 27.012.723 110 11.735.189 100 17 u n 3.013.906 0,00905218194 9.798.575 117 27.012.723 110 18 s t 2.760.391 0,00829075677 15.558.976 115 16.948.435 116 19 n e 2.647.295 0,00795107611 27.012.723 110 44.034.982 101 20 , SP 2.607.947 0,00783289550 2.703.386 44 44.190.175 32 21 e s 2.570.091 0,00771919607 44.034.982 101 15.558.976 115 22 a n 2.549.035 0,00765595496 15.035.255 97 27.012.723 110 23 SP s 2.492.624 0,00748652611 44.190.175 32 15.558.976 115 24 b e 2.470.157 0,00741904711 4.481.972 98 44.034.982 101 25 r e 2.393.560 0,00718899017 20.516.293 114 44.034.982 101 26 h e 2.385.922 0,00716604965 11.233.262 104 44.034.982 101 27 SP e 2.368.191 0,00711279509 44.190.175 32 44.034.982 101 28 SP a 2.337.790 0,00702148654 44.190.175 32 15.035.255 97 29 i c 2.178.853 0,00654412373 21.248.957 105 7.330.509 99 30 i t 2.166.754 0,00650778473 21.248.957 105 16.948.435 116 31 n g 2.074.787 0,00623156443 27.012.723 110 7.535.865 103 32 SP i 2.012.289 0,00604385344 44.190.175 32 21.248.957 105 33 d i 2.002.362 0,00601403798 11.735.189 100 21.248.957 105 34 s c 1.973.817 0,00592830387 15.558.976 115 7.330.509 99 35 m SP 1.961.335 0,00589081453 6.356.321 109 44.190.175 32 36 s e 1.949.206 0,00585438542 15.558.976 115 44.034.982 101 37 i s 1.931.955 0,00580257253 21.248.957 105 15.558.976 115 38 a u 1.838.855 0,00552294930 15.035.255 97 9.798.575 117 39 h SP 1.817.246 0,00545804727 11.233.262 104 44.190.175 32 40 l e 1.775.078 0,00533139687 9.872.084 108 44.034.982 101 41 d SP 1.742.180 0,00523258865 11.735.189 100 44.190.175 32 42 SP w 1.706.226 0,00512460182 44.190.175 32 3.151.564 119 43 e l 1.673.856 0,00502737944 44.034.982 101 9.872.084 108 44 o n 1.671.005 0,00501881654 7.301.993 111 27.012.723 110 45 l i 1.589.147 0,00477295834 9.872.084 108 21.248.957 105 46 a l 1.520.152 0,00456573380 15.035.255 97 9.872.084 108 47 n t 1.483.143 0,00445457831 27.012.723 110 16.948.435 116 48 SP S 1.444.446 0,00433835295 44.190.175 32 1.885.019 83 Mit netten Grüßen Karl