Re: [Neo] N-grame für GB, US Englisch, Deutsch und andere Sprachen

2012-01-13 Diskussionsfäden wettstein509
> Ganz wertlos sind die n-Gramme natürlich nicht - man kann ja auch aus Wörtern 
> (und Worthäufigkeiten) Buchstaben-n-Gramme (mit entspr. Häufigkeiten) 
> erstellen.

Solange es nur um Buchstaben geht, sollte das auch nicht schwierig sein.
Man will aber vielleicht auch Zeichen-n-Gramme mit Satzzeichen oder
Leerzeichen haben.  Immerhin sind Punkt und Komma mit jeweils gut 1%
häufiger als so mancher Buchstabe.  Leerzeichen muss man spätestens dann
mitnehmen, wenn man Zeichentrigramme (oder höhere n-Gramme) in der
Optimierung berücksichtigt.

Nun ist aber ein Wort gefolgt von einem Satzzeichen gemäss Google schon
ein Wort-Bigramm, und zwei von Leerzeichen getrennte Wörter sowieso.
Wenn man die Häufigkeit eines Zeichen-Trigramms «Satzzeichen Leerzeichen
Buchstabe» haben will, braucht man dementsprechend schon die
Google-Trigramme.  Von letzteren gibt es 200 Files pro Sprache, das
erste davon für Deutsch ist 65 MB komprimiert und 500 MB unkomprimiert
gross.

Und es ja so, dass bei einer Wortfolge W1 W2 ... Wn die Wort-Trigramme
Worte W1 und Wn einmal in den Wort-Trigrammen vorkommen, W2 und W(n-1)
zweimal, und die anderen dreimal.  Wenn n nicht sehr gross ist wird
dadurch also die naive Zählung der Zeichen-n-Gramme verfälscht.  Ich
glaube, bei Google ist n die Anzahl der Wörter pro Druckseite, was nicht
allzu viel wäre.  Man kann die Inkonsistenzen sicher rausrechnen, wenn
man die Wort-2- und -1-Gramme mit berücksichtigt.  Ziemlich viel Mühe
dafür, den statistischen Fehler der Belegungsbewertung sinnlos klein zu
machen.

Andreas







Re: [Neo] N-grame für GB, US Englisch, Deutsch und andere Sprachen

2012-01-13 Diskussionsfäden Hans Meine
Am Freitag, 13. Januar 2012, 10:31:49 schrieb Karl Köckemann:
> Da die n-Gramme aus einem Textkorpus erzeugt werden können und ein
> Textkorpus für die Überprüfung einer Tastenbelegung praktischer erscheint,
> sind Textkorpusse für Neo viel interessanter als fertige n-Gramme aus nicht
> reproduzierbarem Ursprung.

Ganz wertlos sind die n-Gramme natürlich nicht - man kann ja auch aus Wörtern 
(und Worthäufigkeiten) Buchstaben-n-Gramme (mit entspr. Häufigkeiten) erstellen.

Mit Googles Daten sogar in Abhängigkeit von Jahreszahlen, wenn ich das richtig 
sehe (Erscheinungsdaten der Bücher nehme ich an).

Ist sicherlich kein Ersatz für einen bekannten, spezialisierten Korpus (auch 
weil Zeichen fehlen, denke ich), aber trotzdem statistisch gesehen wertvoll, 
alleine wegen des Umfangs.

Ciao,
  Hans




Re: [Neo] N-grame für GB, US Englisch, Deutsch und andere Sprachen

2012-01-13 Diskussionsfäden Karl Köckemann
Hallo Matija,

Matija Šuklje writes:

> Ich weiß nicht ob ihr's wüstet, aber Google Books macht — und veröffentlicht! 
> — auch n-grame für die Bücher die ihr gescant haben:
> 
> http://books.google.com/ngrams/datasets
> 
> Vielleicht würde das bei der Neo3 ja helfen...

Viele veröffentlichte n-Gramme haben als kleinstes Fragment ein ganzes Wort -
auch die von Google.
Bei den meisten Tastenbelegungen wird pro Tastendruck kein ganzes Wort, sondern
ein Buchstabe ausgegeben. Daher sind auch für Neo n-Gramme interessanter, die
als kleinstes Fragment ein Zeichen (statt ein Wort) haben.

Da die n-Gramme aus einem Textkorpus erzeugt werden können und ein Textkorpus
für die Überprüfung einer Tastenbelegung praktischer erscheint, sind
Textkorpusse für Neo viel interessanter als fertige n-Gramme aus nicht
reproduzierbarem Ursprung. Wenn ich mich richtig erinnere, mangelt es noch an
einem oder mehreren verfügbaren und uneingeschränkt nutzbaren großen
Textkorpussen. Bei meiner damaligen Suche danach, habe ich das Ziel nicht
erreicht. Oder haben wir inzwischen weitere Korpusse?

Mit netten Grüßen
Karl




Re: [Neo] N-grame für GB, US Englisch, Deutsch und andere Sprachen

2012-01-09 Diskussionsfäden Arne Babenhauserheide
Am Samstag, 7. Januar 2012, 19:50:13 schrieb Matija Šuklje:
> Hey,
>
> Ich weiß nicht ob ihr's wüstet, aber Google Books macht — und
> veröffentlicht! — auch n-grame für die Bücher die ihr gescant haben:
>
> http://books.google.com/ngrams/datasets

Jupp, die sind sehr cool.

Allerdings sind es Wort-NGramme, nicht Buchstaben-NGramme, das heißt, wir
müssten die ~30GiB an Daten noch parsen und hätten dadurch nur den
Literaturteil, aber nicht den Teil zu normalen Texten.

Es wäre aber auf jeden Fall eine klasse Ergänzung.

Liebe Grüße,
Arne

--
1w6 sie zu achten,
sie alle zu finden,
in Spiele zu leiten
und sacht zu verbinden.
→ http://1w6.org



signature.asc
Description: This is a digitally signed message part.


[Neo] N-grame für GB, US Englisch, Deutsch und andere Sprachen

2012-01-07 Diskussionsfäden Matija Šuklje
Hey,

Ich weiß nicht ob ihr's wüstet, aber Google Books macht — und veröffentlicht!
— auch n-grame für die Bücher die ihr gescant haben:

http://books.google.com/ngrams/datasets

Vielleicht würde das bei der Neo3 ja helfen...


mfG,
Matija
--
gsm:+386 41 849 552
www:http://matija.suklje.name
xmpp:   matija.suk...@gabbler.org
sip:matija_suk...@ippi.fr

signature.asc
Description: This is a digitally signed message part.