Re: [Neo] Wir brauchen den echten Korpus

2011-06-01 Diskussionsfäden Arne Babenhauserheide
On Wednesday 01 June 2011 23:05:08 Wolf Belschner wrote:
> Ich denke dass \nf vorwiegend aus Programmiercode im Korpus stammt, ich
> kann mir nicht erklären, in welchem Zusammenhang \nf sonst in der
> Häufigkeit vorkommt. \nfor
>
> Ich lass mich aber gerne auch eines Besseren belehren, nur komm ich
> grade auf keine andere Erklärung

naja,

fucking english
fucking has so
fucking many
fucking words that
fucking start with
fucking f

:)

Bei meinem eigenen (deutschen) Text ist die Standardabweichung von AdnW nur
~600 → deutlich besser.

Liebe Grüße,
Arne
--
1w6 sie zu achten,
sie alle zu finden,
in Spiele zu leiten
und sacht zu verbinden.
→ http://1w6.org



signature.asc
Description: This is a digitally signed message part.


Re: [Neo] Wir brauchen den echten Korpus

2011-06-01 Diskussionsfäden Wolf Belschner
-BEGIN PGP SIGNED MESSAGE-
Hash: SHA1

Am 01.06.2011 20:35, schrieb Arne Babenhauserheide:

> Grundlegend ist die Bewertung gut. Sie zeigt nur eine extrem hohe Varianz. 
> Mut 
> mf und \nf passt das ja teils schon. 

Ich denke dass \nf vorwiegend aus Programmiercode im Korpus stammt, ich
kann mir nicht erklären, in welchem Zusammenhang \nf sonst in der
Häufigkeit vorkommt. \nfor

Ich lass mich aber gerne auch eines Besseren belehren, nur komm ich
grade auf keine andere Erklärung

Gruß

Wolf
-BEGIN PGP SIGNATURE-
Version: GnuPG v2.0.14 (MingW32)

iQEcBAEBAgAGBQJN5qmDAAoJEOW1q9pls7UNEuAH/jJzcujYbALt7bZMhzI9OIOO
7oiR3kQ+tV9DyqTYZi+H1sdGNW1xJYFDNx2Ws4OY0e8b0M7Fd29evfBZmUMfd32c
o3BXptuiIUvMA8iqQeeec19Wj2qvaVxeZdro91K6V1sUpsST0L0+OegwADQ1pnYk
z4QIvECpI+qdKmoSq3cnKr/pCv1DuAAJNC8iKjym9ML+gEC/yEmr/6mk+k1l4J+x
C3WHuP6ile8huA6PqoiHp+w0eCGmYldP99nI9RrzM50an3fy7wkUC6WhbY702bK8
UsBPqMGbp9FUa89YZMSR1dkcazEPZ3Aqz/j2YL5PF8ZCzaEvc7kCwIwTyGuKS/o=
=Rzcp
-END PGP SIGNATURE-



Re: [Neo] [ticket] #270: 5. Ebene in Gnome 2.xx (Ubuntu 10.04) geht nicht

2011-06-01 Diskussionsfäden Neo-Layout
#270: 5. Ebene in Gnome 2.xx (Ubuntu 10.04) geht nicht
--+-
  Reporter:  ckpinguin@…  |   Owner: 
  Type:  Fehler/Defekt|  Status:  closed 
  Priority:  normal   |   Milestone:  Neo Version 2.0
 Component:  unbekannt| Version:  2.0 Final  
Resolution:  worksforme   |Keywords: 
--+-
Changes (by Dennis-ſ):

  * status:  new => closed
  * resolution:  => worksforme


Comment:

 Ich weiß nicht, ob Du der Einzige bist, aber Neo2 sollte – inklusive der
 ›mathematischen‹ 6. Ebene – unter Ubuntu 10.04 Gnome funktionieren (und
 tut das bei mir auch!).

 Kannst Du Dir einmal die Gnome-Anleitung im Wiki ansehen? Vielleicht hast
 Du da irgendwo eine falsche Ei∀nstellung … ansonsten könnte es sich
 eventuell auch um ein Hardware-Problem handeln; einige Tastaturen haben
 Schwierigkeiten, Tastenkombinationen mit drei Tasten gleichzeitig korrekt
 festzustellen.

-- 
Ticket URL: 
Neo-Layout 
Das Neo-Tastaturlayout ist ein freies und ergonomisch optimiertes 
Tastaturlayout für die deutsche Sprache, das auch sehr viele Sonderzeichen 
direkt verfügbar macht.


Re: [Neo] Wir brauchen den echten Korpus

2011-06-01 Diskussionsfäden Arne Babenhauserheide
On Wednesday 01 June 2011 16:03:24 Wolf Belschner wrote:
> das Problem mit dem Return sehe ich so nicht, halte ich für absolut
> überbewertet.

Das hatte ich deswegen im PS geschrieben. Ich vermute auch, dass es mit am
Korpus liegt. Wenn ich es über einen Text von mir jage, landet es bei nur
einer Standardabweichung von 6xx.

> Zugegeben ist Return + F eine haarige Kombi in AdNW die
> einen aus der Balance werfen kann, was mir sicher auch schon passiert
> ist aber es geht an der Realität vorbei, normalerweise tippt man Return
> und fängt dann einen Satz neu an, was eine kleine Pause beinhaltet und
> damit auch das Problem deutlich entschärft.

Das Problem zeigt sich in der Gesamtwertung ja auch deutlich schwächer :)

> Was mich hier wirklich erstaunt ist die Diskrepanz zwischen
> Schreibempfinden und statistischer Bewertung, das stimmt so nicht ganz
> zusammen. Aber ich denke wir kommen dem schon auf die Spur.

Grundlegend ist die Bewertung gut. Sie zeigt nur eine extrem hohe Varianz. Mut
mf und \nf passt das ja teils schon.

> Da ich fast nur Fliesstext schreibe (ich würde mal sagen 99%) und jetzt
> auch schon einige Übung habe mit AdNW,¹ habe ich schon erwartet, dass
> die Standardabweichungen mit den extremen Positionen von f und k zu tun
> haben. K trägt dazu laut Liste kaum was bei obwohl ich mich damit fast
> am öftesten verhaue, ich glaube auch Matthias hat davon schon berichtet.

Da müssen möglicherweise die Kosten der Position noch hoch.

> Wenn ich mir so ansehe was ich oben zu bg und bv gesagt habe könnte man
> in Bezug auf Tippbarkeit durchaus über eine Gewichtung der n-gramme wie
> Wolf-Heider Rein sie vorschlägt nachdenken, das hat schon was für sich.

Jupp, wir müssen nur einen guten Weg finden, das zu machen. Der dedizierte
nGramm-Generator machtn mir Hoffnung.

> Ich habe mir mal das easy layout vorgenommen und damit ein paar
> beliebige Testworte eingegeben:

Dazu vorher: Der Name ist immer schlecht zu tippen (easy) :)

>  blue, black, truncated, whole, easy, yellow, delight, videoscreen,
> board, beard, background, traffic, drugs, sample, itinerary, those,
> government, roadblock, jealousy. b und d sind problematisch.
> Das ist natürlich nicht repräsentativ und nicht fair, vieles geht auch
> sehr gut damit aber es geht nicht so gut wie ich eigentlich erwartet hätte.

Lässt sich halt nur in Grenzen optimieren. Irgendwo ist leider die Grenze der
Sprache. Aber es ist möglich einerseits dafür zu sorgen, dass es bei seltenen
Wörtern passiert, und andererseits, dass die übelsten Übergänge auf nGramme
verschoben werden, die in der Sprache gar nicht vorkommen. Ich vermute, dass
es deutlich mehr recht schlechte Übergänge gibt als echt grausige. Wenn die
echt grausigen völlig vermieden werden, heißt das halt, dass es mehr recht
schlechte gibt. wir haben nur eine begrenzte Zahl übergänge, die wir ganz
killen können.

Ich habe inzwischen übrigens auch gemerkt, dass die Benachbarkeit runter muss.
Wenn die Hände überlastet sind, tut die nämlich nochmal deutlich mehr weh.


--
Konstruktive Kritik:

- http://draketo.de/licht/krude-ideen/konstruktive-kritik



signature.asc
Description: This is a digitally signed message part.


Re: [Neo] Korpora und Lektionen erzeugen mit "WordFinder"

2011-06-01 Diskussionsfäden urac
Super!
Nachdem ich seit einiger Zeit erfolglos die Häufigkeit von Bigrammen mit ß
suche, werde ich mir jetzt selber welche errechnen.
Vielen Dank dafür.

Jurek


Re: [Neo] Wir brauchen den echten Korpus

2011-06-01 Diskussionsfäden Wolf Belschner
-BEGIN PGP SIGNED MESSAGE-
Hash: SHA1

Ok, ich schick das jetzt nochmal, da es offenbar nicht in der Neogroup
angekommen ist


Am 01.06.2011 09:17, schrieb Arne Babenhauserheide:

> > Es gibt ein paar Kriterien, die mit der vierten Potenz skalieren.
Wenn AdnW
> > die nutzt, kann das sehr heftig reinhauen.
> >
Danke für die Liste der unschönen Bigramme in AdNW. Dass wir wieder bei
der Position des F in AdNW landen hatte ich schon fast vermutet. Wenn
ich das so durchgehe kann ich allerdings nicht alles nachvollziehen, was
ich da sehe

> > Sehr unschöne ngramme sind die hier (Großbuchstaben werden in
shift-sequenzen
> > aufgeteilt, \n heißt Return):
> >
> > 0.039 \nf
> > 0.026 \nA
> > 0.024 \nH
> > 0.019 \nI
> > 0.010 \nF
> > 0.007 \nE
> > 0.006 \nO
> > 0.003 \nK
> > 0.002 \nU
> > 0.001 \nY
> > 0.000 \nQ
> > 0.000 \nX
das Problem mit dem Return sehe ich so nicht, halte ich für absolut
überbewertet. Wenn man einen Return tippt und jetzt nicht gerade mit
einer mechanischen Schreibmaschine arbeitet bedeutet das praktisch immer
einen Absatz im Textfluß, man fängt danach neu an, meist mit
Shift+Buchstabe. Zugegeben ist Return + F eine haarige Kombi in AdNW die
einen aus der Balance werfen kann, was mir sicher auch schon passiert
ist aber es geht an der Realität vorbei, normalerweise tippt man Return
und fängt dann einen Satz neu an, was eine kleine Pause beinhaltet und
damit auch das Problem deutlich entschärft.

> >
> > 0.008 If
If zugegeben ganz schlimm in AdNW, muss man wirklich lernen, kommt aber
eigentlich nur in Englisch vor wenn man einen Satz mit If anfängt.
ansonsten fällt mir da nur die Ifflandstraße in München ein ;)
Oder ist da vielleicht Programmcode in der Grundlage???

> > 0.004 "W
Diese Kombis mit " + Großbuchstabe dürften auf jeder Belegung ihre
Punkte machen. Gleiches gilt auch für die Kombinationen von
Großbuchstaben je nach ihrer Lage auf der Tastatur. 'USA' ist schlecht
zu tippen, wird aber auf fast jeder Belegung so sein.

> > 0.004 bg
> > 0.001 gb
Fällt mir einmal gelernt nicht mehr weiter auf, ist auch praktisch immer
eine Silbentrennung  'Abgang', das Gehirn schreibt Ab und gang, halte
ich für viel zu schlecht bewertet.


> > 0.003 Ev
> > 0.003 wv
> > 0.003 bv
stört mich absolut nicht mehr, auch v fängt meist eine Silbe an.

> > 0.003 fm
> > 0.002 mf
die sind schon blöde, muss man wirklich lernen, sind aber eher selten
mpf stört mich öfter, muss man lernen

> >
> > Jeder [Return-Zeichen links] bedeutet z.B., dass erst Return und
dann shift
> > rechts gedrückt werden muss: Eine Kleinfingerwiederholung.
> >
> > \nf hat beispielsweise Kosten von knapp 8000, bg von knapp 6700.
> >
> >
> > PS: Es kann sein, dass Bigramme mit Zeilenumbrüchen als erstem Zeichen
> > niedriger gewichtet werden sollten. Erfahrungswert?
siehe Kommentar oben.


Was mich hier wirklich erstaunt ist die Diskrepanz zwischen
Schreibempfinden und statistischer Bewertung, das stimmt so nicht ganz
zusammen. Aber ich denke wir kommen dem schon auf die Spur.

Da ich fast nur Fliesstext schreibe (ich würde mal sagen 99%) und jetzt
auch schon einige Übung habe mit AdNW,¹ habe ich schon erwartet, dass
die Standardabweichungen mit den extremen Positionen von f und k zu tun
haben. K trägt dazu laut Liste kaum was bei obwohl ich mich damit fast
am öftesten verhaue, ich glaube auch Matthias hat davon schon berichtet.

Das F liegt an einer extremen Position die natürlich in der Bewertung
für Strafpunkte sorgt, die Position ist aber im täglichen Gebrauch auf
der schräg versetzen Tastatur besser als die des j (qwertz p). Und sie
schafft nicht nur Nachteile:
Der große Charme daran ist, wenn man sich mal daran gewöhnt hat, dass
diese Position die Nicht-Benachbartheit der Finger weiter reduziert, das
Geschehen auf der Tastatur entzerrt was IMHO den Schreibfluss deutlich
fördert. Man nimmt dadurch ganz klar ein paar punktuelle Nachteile in
Kauf, aber ich denke es schafft im großen und ganzen mehr Platz und
Komfort (mf!!! ich hab mich promt vertippt dabei! :) ), ein Faktor dem
deine bisherige Bewertung wenig Rechnung trägt.

Wenn ich mir so ansehe was ich oben zu bg und bv gesagt habe könnte man
in Bezug auf Tippbarkeit durchaus über eine Gewichtung der n-gramme wie
Wolf-Heider Rein sie vorschlägt nachdenken, das hat schon was für sich.

Ich denke in der Richtung muss noch einiges geschehen bis wirklich
tippbare Belegungen dabei rauskommen.

Grüße

Wolf


PS:
Ich habe mir mal das easy layout vorgenommen und damit ein paar
beliebige Testworte eingegeben:
 blue, black, truncated, whole, easy, yellow, delight, videoscreen,
board, beard, background, traffic, drugs, sample, itinerary, those,
government, roadblock, jealousy. b und d sind problematisch.
Das ist natürlich nicht repräsentativ und nicht fair, vieles geht auch
sehr gut damit aber es geht nicht so gut wie ich eigentlich erwartet hätte.




¹ allerdings in der Variante
ku,äq vgcljf
hiaeo dtrnsß
yx.üö bpwmz
was an der rechten Seite nichts ändert, nur die Nicht-Benachbartheit
noch h

Re: [Neo] Wir brauchen den echten Korpus

2011-06-01 Diskussionsfäden Wolf Belschner
Am 01.06.2011 09:17, schrieb Arne Babenhauserheide:

> Es gibt ein paar Kriterien, die mit der vierten Potenz skalieren. Wenn AdnW 
> die nutzt, kann das sehr heftig reinhauen.
>

Danke für die Liste der unschönen Bigramme in AdNW. Dass wir wieder bei
der Position des F in AdNW landen hatte ich schon fast vermutet. Wenn
ich das so durchgehe kann ich allerdings nicht alles nachvollziehen, was
ich da sehe

> Sehr unschöne ngramme sind die hier (Großbuchstaben werden in shift-sequenzen 
> aufgeteilt, \n heißt Return): 
> 
> 0.039 \nf
> 0.026 \nA
> 0.024 \nH
> 0.019 \nI
> 0.010 \nF
> 0.007 \nE
> 0.006 \nO
> 0.003 \nK
> 0.002 \nU
> 0.001 \nY
> 0.000 \nQ
> 0.000 \nX   

das Problem mit dem Return sehe ich so nicht, halte ich für absolut
überbewertet. Wenn man einen Return tippt und jetzt nicht gerade mit
einer mechanischen Schreibmaschine arbeitet bedeutet das praktisch immer
einen Absatz im Textfluß, man fängt danach neu an, meist mit
Shift+Buchstabe. Zugegeben ist Return + F eine haarige Kombi in AdNW die
einen aus der Balance werfen kann, was mir sicher auch schon passiert
ist aber es geht an der Realität vorbei, normalerweise tippt man Return
und fängt dann einen Satz neu an, was eine kleine Pause beinhaltet und
damit auch das Problem deutlich entschärft.

> 
> 0.008 If 

If zugegeben ganz schlimm in AdNW, muss man wirklich lernen, kommt aber
eigentlich nur in Englisch vor wenn man einen Satz mit If anfängt.
ansonsten fällt mir da nur die Ifflandstraße in München ein ;)

> 0.004 "W 
Diese Kombis mit " + Großbuchstabe dürften auf jeder Belegung ihre
Punkte machen. Gleiches gilt auch für die Kombinationen von
Großbuchstaben je nach ihrer Lage auf der Tastatur. 'USA' ist schlecht
zu tippen, wird aber auf fast jeder Belegung so sein.

> 0.004 bg
> 0.001 gb

Fällt mir einmal gelernt nicht mehr weiter auf, ist auch praktisch immer
eine Silbentrennung  'Abgang', das Gehirn schreibt Ab und gang, halte
ich für viel zu schlecht bewertet.


> 0.003 Ev 
> 0.003 wv 
> 0.003 bv

stört mich absolut nicht mehr, auch v fängt meist eine Silbe an.

> 0.003 fm 
> 0.002 mf

die sind schon blöde, muss man wirklich lernen, sind aber eher selten
mpf stört mich öfter, muss man lernen

> 
> Jeder [Return-Zeichen links] bedeutet z.B., dass erst Return und dann shift 
> rechts gedrückt werden muss: Eine Kleinfingerwiederholung.
> 
> \nf hat beispielsweise Kosten von knapp 8000, bg von knapp 6700.
> 
> 
> PS: Es kann sein, dass Bigramme mit Zeilenumbrüchen als erstem Zeichen 
> niedriger gewichtet werden sollten. Erfahrungswert?

siehe Kommentar oben.


Was mich hier wirklich erstaunt ist die Diskrepanz zwischen
Schreibempfinden und statistischer Bewertung, das stimmt so nicht ganz
zusammen. Aber ich denke wir kommen dem schon auf die Spur.

Da ich fast nur Fliesstext schreibe (ich würde mal sagen 99%) und jetzt
auch schon einige Übung habe mit AdNW,¹ habe ich schon erwartet, dass
die Standardabweichungen mit den extremen Positionen von f und k zu tun
haben. K trägt dazu laut Liste kaum was bei obwohl ich mich damit fast
am öftesten verhaue, ich glaube auch Matthias hat davon schon berichtet.

Das F liegt an einer extremen Position die natürlich in der Bewertung
für Strafpunkte sorgt, die Position ist aber im täglichen Gebrauch auf
der schräg versetzen Tastatur besser als die des j (qwertz p). Und sie
schafft nicht nur Nachteile:
Der große Charme daran ist, wenn man sich mal daran gewöhnt hat, dass
diese Position die Nicht-Benachbartheit der Finger weiter reduziert, das
Geschehen auf der Tastatur entzerrt was IMHO den Schreibfluss deutlich
fördert. Man nimmt dadurch ganz klar ein paar punktuelle Nachteile in
Kauf, aber ich denke es schafft im großen und ganzen mehr Platz und
Komfort (mf!!! ich hab mich promt vertippt dabei!:) ), ein Faktor dem
deine bisherige Bewertung wenig Rechnung trägt.

Wenn ich mir so ansehe was ich oben zu bg und bv gesagt habe könnte man
in Bezug auf Tippbarkeit durchaus über eine Gewichtung der n-gramme wie
Wolf-Heider Rein sie vorschlägt nachdenken, das hat schon was für sich.

Ich denke in der Richtung muss noch einiges geschehen bis wirklich
tippbare Belegungen dabei rauskommen.

Grüße

Wolf


PS:
Ich habe mir mal das easy layout vorgenommen und damit ein paar
beliebige Testworte eingegeben:
 blue, black, truncated, whole, easy, yellow, delight, videoscreen,
board, beard, background, traffic, drugs, sample, itinerary, those,
government, roadblock, jealousy. b und d sind problematisch.
Das ist natürlich nicht repräsentativ und nicht fair, vieles geht auch
sehr gut damit aber es geht nicht so gut wie ich eigentlich erwartet hätte.




¹ allerdings in der Variante
ku,äq vgcljf
hiaeo dtrnsß
yx.üö bpwmz
was an der rechten Seite nichts ändert, nur die Nicht-Benachbartheit
noch höher schraubt.



signature.asc
Description: OpenPGP digital signature


Re: [Neo] Korpora und Lektionen erzeugen mit "WordFinder"

2011-06-01 Diskussionsfäden Florian Janßen
Hallo,

ich bin noch nicht dazugekommen, mir das Programm genauer anzuschauen.
Trotzdem schon mal Hut ab vor der Leistung.

Michael Gattinger schrieb am 31.05.2011 um 23:33 Uhr:
>
> Programm
> Siehe Dateianhang

1,7MB an eine Mailingliste zu schicken ist schon etwas viel.

Es wäre nett, wenn du es in Zukunft bei dem Link belassen könntest.

Gruß Florian




signature.asc
Description: OpenPGP digital signature


Re: [Neo] Wir brauchen den echten Korpus

2011-06-01 Diskussionsfäden Arne Babenhauserheide
On Tuesday 31 May 2011 20:50:21 Wolf Belschner wrote:
> Am 31.05.2011 19:10, schrieb Arne Babenhauserheide:
> > Als Vergleich: Qwertz hat eine Standardabweichung bei Wörtern von über
> > 1200, AdnW kommt über 1400, und Qwertz hat so Monster wie „zerfasert“
> > und „gesondert“.
>
> solche offensichtlichen Monster sind mir aber bei AdNW noch nicht
> begegnet, irgendwas kann da immer noch nicht stimmen ???

f scheint viel auszumachen

schau mal: t gegen f getauscht:

./regularity_check.py  -t adnw-korpus.txt  -l "kuü.ä vgcljt´
> hieao dfrnsß
> xyö,q bpwmz
> "
mean value and standard deviation of the layout cost:
snippets of 270 letters: 461.209498711 ± 303.222772129 (65.7451273176%)
words: 342.953127535 ± 2415.39100732 (704.29187355%)

1400 → 2400

Liebe Grüße,
Arne
--
1w6 sie zu achten,
sie alle zu finden,
in Spiele zu leiten
und sacht zu verbinden.
→ http://1w6.org



signature.asc
Description: This is a digitally signed message part.


Re: [Neo] Wir brauchen den echten Korpus

2011-06-01 Diskussionsfäden Arne Babenhauserheide
On Tuesday 31 May 2011 20:50:21 Wolf Belschner wrote:
> Am 31.05.2011 19:10, schrieb Arne Babenhauserheide:
> > Als Vergleich: Qwertz hat eine Standardabweichung bei Wörtern von über
> > 1200, AdnW kommt über 1400, und Qwertz hat so Monster wie „zerfasert“
> > und „gesondert“.
>
> solche offensichtlichen Monster sind mir aber bei AdNW noch nicht
> begegnet, irgendwas kann da immer noch nicht stimmen ???

Es gibt ein paar Kriterien, die mit der vierten Potenz skalieren. Wenn AdnW
die nutzt, kann das sehr heftig reinhauen.

Sehr unschöne ngramme sind die hier (Großbuchstaben werden in shift-sequenzen
aufgeteilt, \n heißt Return):

0.039 \nf
0.026 \nA
0.024 \nH
0.019 \nI
0.010 \nF
0.007 \nE
0.006 \nO
0.003 \nK
0.002 \nU
0.001 \nY
0.000 \nQ
0.000 \nX

0.008 If
0.004 "W
0.004 bg
0.004 OF
0.003 Ev
0.003 wv
0.003 bv
0.003 fm
0.003 "M
0.003 Af
0.002 "N
0.002 IV
0.002 "B
0.002 VE
0.002 Of
0.002 mf
0.001 gb
0.001 -M
0.001 VI
0.001 EV
0.001 JO
0.001 !"
0.001 "C
0.001 "D
0.001 'S
0.000 RK
0.000 "F
0.000 -L
0.000 IF
0.000 KS
0.000 KM
0.000 R'
0.000 FE
0.000 Ov
0.000 "G
0.000 OV
0.000 US
0.000 "R
0.000 S'
0.000 VO
0.000 S:
0.000 "L
0.000 f;
0.000 vw
0.000 'C
0.000 -F
0.000 "J
0.000 FO
0.000 "V
0.000 -J
0.000 Ef
0.000 OJ
0.000 JE
0.000 XV
0.000 L'
0.000 pv
0.000 FU
0.000 EF
0.000 v1
0.000 Iv
0.000 UL
0.000 -W
0.000 'R
9e-05 vp
7e-05 vb
6e-05 FI
6e-05 FA
6e-05 AF
6e-05 Aj
6e-05 AV
6e-05 Av
6e-05 SU
6e-05 f'
6e-05 'f
6e-05 'N
6e-05 "v
6e-05 LU
6e-05 [E
6e-05 'W
6e-05 (P
6e-05 UD
6e-05 'M
6e-05 'G


Jeder [Return-Zeichen links] bedeutet z.B., dass erst Return und dann shift
rechts gedrückt werden muss: Eine Kleinfingerwiederholung.

\nf hat beispielsweise Kosten von knapp 8000, bg von knapp 6700.

Erstellt via

./bigramm_statistik.py -f Korpora/Gutenberg/English/4899.txt.utf8 \
-l "kuü.ä vgcljf´
hieao dtrnsß
xyö,q bpwmz
" --bars -n 100

gepiped durch

| grep
"\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*"
-B 1 | sed s/\*.*//  | grep ^[a-zA-Z] -B 1

(für die Zeichen mit Zeilenumbruch als erstes Zeichen) und

| grep
"\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*\*"
| sed s/\*.*//  | grep ^[0-9]

(für die ohne)

Liebe Grüße,
Arne

PS: Es kann sein, dass Bigramme mit Zeilenumbrüchen als erstem Zeichen
niedriger gewichtet werden sollten. Erfahrungswert?

signature.asc
Description: This is a digitally signed message part.