Am Mon, 30 Nov 2009 12:52:32 +0100
schrieb Ulf Bro :
> Mein Textkorpus, den ich in meinem Auswerteprogramm benutze, ist
> vollständig bereinigt für irrelevante Wörter und Fehler — das
> Vorgehen habe ich in den damaligen Mails beschrieben.
Ich überlege, den Leipzig-Corpus sowie dessen Wörterliste
Am Tue, 1 Dec 2009 12:03:45 +0100
schrieb Ulf Bro :
> > Im Grunde ist es deinem eigenen Ansatz ähnlich: Tasten, die weit
> > auseinander liegen, sind schlecht kurz hintereinander zu tippen.
> > Beispiele basierend auf Neo2:
> > Die Buchstabenfolge »Di« ist leicht zu tippen: der linke kleine
> > Fi
Guten Tag,
Am 30.11.2009 um 11:43 schrieb Karl Köckemann:
Bei 1 Million Zeilen, würden da die als fehlerhaft vermuteten Wörter
(wurden ein paar Sätze durchgegesehen, in denen sie stehen?) aufgrund
ihrer geringen Häufigkeiten bei statistischen Analysen im Ergebnis so
stark ins Gewicht fallen, da
Am Sun, 29 Nov 2009 11:36:49 +0100
schrieb Ulf Bro :
> > Soeben fand ich das Verzeichnis, in dem die herunterladbaren
> > Textcorpora der Uni Leipzig stehen:
> > http://corpora.informatik.uni-leipzig.de/resources/flatfiles
> >
> > Die genaue Bedeutung scheint unklar. Auf dieser Seite geht zuminde
Am Sun, 29 Nov 2009 08:26:33 +0100
schrieb Pascal Hauck :
> Der nächste Schritt ist in der Tat, die Bi- und Trigramme auszuwerten.
> Interessant wäre z.B. die Fragestellung, welche Tupel (Leerzeichen,
> Großbuchstabe, Kleinbuchstabe) häufig sind, so dass ein angenehmer
> Handwechsel erfolgen kann
> Soeben fand ich das Verzeichnis, in dem die herunterladbaren
> Textcorpora der Uni Leipzig stehen:
> http://corpora.informatik.uni-leipzig.de/resources/flatfiles
>
> Die genaue Bedeutung scheint unklar. Auf dieser Seite geht zumindest
> die Bedeutung des Inhalts von de05_3M.zip hervor:
> http://
Am Sat, 28 Nov 2009 23:17:49 +0100
schrieb Pascal Hauck :
> Am Samstag, 28. November 2009 17:53:34 schrieb Karl Köckemann:
> > einen Textkörper gäbe, den alle einheitlich verwenden könnten
>
> Nicht falsch. Dennoch rate ich dazu, die Auswertungsprogramme zu Neo3
> derart zu gestalten, dass jederz
Am Samstag, 28. November 2009 17:53:34 schrieb Karl Köckemann:
> einen Textkörper gäbe, den alle einheitlich verwenden könnten
Nicht falsch. Dennoch rate ich dazu, die Auswertungsprogramme zu Neo3 derart
zu gestalten, dass jederzeit auch andere Textcorpora verwendet werden können,
so dass das di
Soeben fand ich das Verzeichnis, in dem die herunterladbaren
Textcorpora der Uni Leipzig stehen:
http://corpora.informatik.uni-leipzig.de/resources/flatfiles
Die genaue Bedeutung scheint unklar. Auf dieser Seite geht zumindest
die Bedeutung des Inhalts von de05_3M.zip hervor:
http://www.domain-sca