> Einmal hattest Du Linux-Befehle beschrieben, mit denen sich eine
> Bigrammliste erstellen läßt (vielen Dank, sie waren mir hilfreich).
> Danach entstanden aus dem Wort "Beispieltext" die Bigramme:
> Be is pi el te xt
>
> Bei der von mir verwendeten Variante entstehen aus dem Wort
> "Beispieltext" die Bigramme:
> Be ei is sp pi ie el lt te ex xt
>
> Bei einem großen Textkörper fällt der Unterschied nicht ins Gewicht, da
> die Bigramme sich oft genug wiederholen.

Also, jetzt habe ich es richtig gemacht, und die Ergebnisse sind hier – links 
die alten (falschen) Bigramme, rechts die neuen, richtigen, diesmal auch 
direkt aus der 3M-Datei, auszugsweise:

1613167 en        10289103 en
1403652 de        10245304 er
1353512 er         6800344 ch
1308609 ch         5905795 de
 944132 ge         5052042 ei
 846421 ei         4877175 te
 817794 te         4759311 in
 774986 in         4569734 ie
 761021 di         4029896 ge
 731619 un         3237876 un
 723561 be         3204734 st
 645085 st         3195370 nd
 555776 ne         2972817 be
 541306 au         2808344 an
 528869 sc         2736121 ne
 503296 re         2666617 re
 487033 an         2648269 es
 444803 he         2525970 he
 436911 da         2482394 di
 431039 se         2324377 sc
 417529 nd         2220822 ic
 399432 si         2190469 au
 394633 ha         2179975 it
 383330 es         2120017 se
 377087 is         2076960 ng
 363025 le         1956822 is
 352670 we         1925082 le
 348930 zu         1718965 el
 342122 vo         1679509 on
 341551 al         1672800 li
 332999 mi         1652569 al
 330152 ng         1484696 nt
 317366 it         1477590 ar
 310644 ve         1474508 si
 281807 wi         1472499 ha
 281364 ie         1385042 da
 279546 me         1376452 we
 278161 rd         1349240 ra
 276381 li         1330603 ll
 267661 ni         1314609 me
 258578 hr         1300390 or
 258451 el         1300004 rt
 252059 rt         1297183 ht
 239469 ma         1289839 ti
 238487 ic         1227809 as
 232839 na         1213468 at
 220610 ti         1211618 ri
 219917 ra         1188782 hr
 219006 so         1157764 mi
 215369 im         1144457 zu
 194708 wa         1142870 et
 179785 rs         1126786 us
 178116 ri         1120101 n.
 176785 ar         1104059 em
 176408 fü         1101569 ni
 168736 et         1080579 ve
 168142 la         1059918 vo
 166616 ns         1043068 ig
 164715 ko         1037729 ur
 161599 pr         1020210 ns
 158836 sp         1008231 la

Das ist schon mehr als nur ein bisschen Unterschied.

Danke nochmal.

Ulf

Antwort per Email an