On Tuesday 31 May 2011 20:50:21 Wolf Belschner wrote:
> Am 31.05.2011 19:10, schrieb Arne Babenhauserheide:
> > Als Vergleich: Qwertz hat eine Standardabweichung bei Wörtern von über
> > 1200, AdnW kommt über 1400, und Qwertz hat so Monster wie „zerfasert“
> > und „gesondert“.
>
> solche offensichtlichen Monster sind mir aber bei AdNW noch nicht
> begegnet, irgendwas kann da immer noch nicht stimmen ???

Es gibt ein paar Kriterien, die mit der vierten Potenz skalieren. Wenn AdnW
die nutzt, kann das sehr heftig reinhauen.

Sehr unschöne ngramme sind die hier (Großbuchstaben werden in shift-sequenzen
aufgeteilt, \n heißt Return):

0.039 \nf
0.026 \nA
0.024 \nH
0.019 \nI
0.010 \nF
0.007 \nE
0.006 \nO
0.003 \nK
0.002 \nU
0.001 \nY
0.000 \nQ
0.000 \nX

0.008 If
0.004 "W
0.004 bg
0.004 OF
0.003 Ev
0.003 wv
0.003 bv
0.003 fm
0.003 "M
0.003 Af
0.002 "N
0.002 IV
0.002 "B
0.002 VE
0.002 Of
0.002 mf
0.001 gb
0.001 -M
0.001 VI
0.001 EV
0.001 JO
0.001 !"
0.001 "C
0.001 "D
0.001 'S
0.000 RK
0.000 "F
0.000 -L
0.000 IF
0.000 KS
0.000 KM
0.000 R'
0.000 FE
0.000 Ov
0.000 "G
0.000 OV
0.000 US
0.000 "R
0.000 S'
0.000 VO
0.000 S:
0.000 "L
0.000 f;
0.000 vw
0.000 'C
0.000 -F
0.000 "J
0.000 FO
0.000 "V
0.000 -J
0.000 Ef
0.000 OJ
0.000 JE
0.000 XV
0.000 L'
0.000 pv
0.000 FU
0.000 EF
0.000 v1
0.000 Iv
0.000 UL
0.000 -W
0.000 'R
9e-05 vp
7e-05 vb
6e-05 FI
6e-05 FA
6e-05 AF
6e-05 Aj
6e-05 AV
6e-05 Av
6e-05 SU
6e-05 f'
6e-05 'f
6e-05 'N
6e-05 "v
6e-05 LU
6e-05 [E
6e-05 'W
6e-05 (P
6e-05 UD
6e-05 'M
6e-05 'G


Jeder [Return-Zeichen links] bedeutet z.B., dass erst Return und dann shift
rechts gedrückt werden muss: Eine Kleinfingerwiederholung.

\nf hat beispielsweise Kosten von knapp 8000, bg von knapp 6700.

Erstellt via

./bigramm_statistik.py -f Korpora/Gutenberg/English/4899.txt.utf8 \
-l "kuü.ä vgcljf´
hieao dtrnsß
xyö,q bpwmz
" --bars -n 1000000

gepiped durch

| grep
"\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*"
-B 1 | sed s/\*.*//  | grep ^[a-zA-Z] -B 1

(für die Zeichen mit Zeilenumbruch als erstes Zeichen) und

| grep
"\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*"
| sed s/\*.*//  | grep ^[0-9]

(für die ohne)

Liebe Grüße,
Arne

PS: Es kann sein, dass Bigramme mit Zeilenumbrüchen als erstem Zeichen
niedriger gewichtet werden sollten. Erfahrungswert?

Attachment: signature.asc
Description: This is a digitally signed message part.

Antwort per Email an