Michael Gattinger <hypertrunks2 <at> googlemail.com> writes:

> Guten Abend liebe Neoler,-------------------------Kurze Einleitung:ich Sprach
an, dass ich ein Programm schreibe mit dem man Korpora untersuchen kann und auch
beliebige tastaturlayoutorientierte Lektionen erstellen kann um eine beliebige
Tastatur zu erlernen.

Ich bin jetzt endlich dazu gekommen, den Wortfinder zu testen (war eine Woche
nicht da und musste vorher noch viel Zeug machen…).

Grundlegend finde ich den Wortfinder sehr praktisch. Gerade die Möglichkeit,
einfach einen Ordner auszuwählen, in dem dann alle Dateien eines definierten
Typs eingelesen werden, gefällt mir sehr!

Um ihn noch intuitiver zu machen, könntest du zwischen den Knöpfen oben Pfeile
einfügen ( → ), dann ist klar, das man meistens eins nach dem anderen macht.

Von der Geschwindigkeit bin ich allerdings noch nicht so begeistert. Ich habe es
mal über einen Ordner von mir gejagt (1w6: https://bitbucket.org/ArneBab/1w6 ;
5MiB Text+HTML ) und es ist immernoch am Rechnen. Allerdings ist der Test auch
fies: Die Dateien sind teils utf-8, teils noch iso-latin1 codiert (d.h. es
hängen noch ein paar sehr alte drin). Ich habe den HTML Filter und einen
replace(ews, 1w6) Filter drin. 

Das einzige, was mir jetzt noch fehlt, ist eine Ausgabeoption, mit der die
ngramme als 

123 ab

ausgegeben werden, damit ich nicht noch einen weiteren Parser schreiben muss :)

Wie gehst du eigentlich mit Zeilenumbrüchen um? (ich ersetze sie durch \\n (und
\ durch \\) und mache beim Einlesen die entgegengesetzte Transformation).

Liebe Grüße, 
Arne


Antwort per Email an