> Einmal hattest Du Linux-Befehle beschrieben, mit denen sich eine > Bigrammliste erstellen läßt (vielen Dank, sie waren mir hilfreich). > Danach entstanden aus dem Wort "Beispieltext" die Bigramme: > Be is pi el te xt > > Bei der von mir verwendeten Variante entstehen aus dem Wort > "Beispieltext" die Bigramme: > Be ei is sp pi ie el lt te ex xt > > Bei einem großen Textkörper fällt der Unterschied nicht ins Gewicht, da > die Bigramme sich oft genug wiederholen.
Also, jetzt habe ich es richtig gemacht, und die Ergebnisse sind hier – links die alten (falschen) Bigramme, rechts die neuen, richtigen, diesmal auch direkt aus der 3M-Datei, auszugsweise: 1613167 en 10289103 en 1403652 de 10245304 er 1353512 er 6800344 ch 1308609 ch 5905795 de 944132 ge 5052042 ei 846421 ei 4877175 te 817794 te 4759311 in 774986 in 4569734 ie 761021 di 4029896 ge 731619 un 3237876 un 723561 be 3204734 st 645085 st 3195370 nd 555776 ne 2972817 be 541306 au 2808344 an 528869 sc 2736121 ne 503296 re 2666617 re 487033 an 2648269 es 444803 he 2525970 he 436911 da 2482394 di 431039 se 2324377 sc 417529 nd 2220822 ic 399432 si 2190469 au 394633 ha 2179975 it 383330 es 2120017 se 377087 is 2076960 ng 363025 le 1956822 is 352670 we 1925082 le 348930 zu 1718965 el 342122 vo 1679509 on 341551 al 1672800 li 332999 mi 1652569 al 330152 ng 1484696 nt 317366 it 1477590 ar 310644 ve 1474508 si 281807 wi 1472499 ha 281364 ie 1385042 da 279546 me 1376452 we 278161 rd 1349240 ra 276381 li 1330603 ll 267661 ni 1314609 me 258578 hr 1300390 or 258451 el 1300004 rt 252059 rt 1297183 ht 239469 ma 1289839 ti 238487 ic 1227809 as 232839 na 1213468 at 220610 ti 1211618 ri 219917 ra 1188782 hr 219006 so 1157764 mi 215369 im 1144457 zu 194708 wa 1142870 et 179785 rs 1126786 us 178116 ri 1120101 n. 176785 ar 1104059 em 176408 fü 1101569 ni 168736 et 1080579 ve 168142 la 1059918 vo 166616 ns 1043068 ig 164715 ko 1037729 ur 161599 pr 1020210 ns 158836 sp 1008231 la Das ist schon mehr als nur ein bisschen Unterschied. Danke nochmal. Ulf
