Michael Gattinger <hypertrunks2 <at> googlemail.com> writes: > Guten Abend liebe Neoler,-------------------------Kurze Einleitung:ich Sprach an, dass ich ein Programm schreibe mit dem man Korpora untersuchen kann und auch beliebige tastaturlayoutorientierte Lektionen erstellen kann um eine beliebige Tastatur zu erlernen.
Ich bin jetzt endlich dazu gekommen, den Wortfinder zu testen (war eine Woche nicht da und musste vorher noch viel Zeug machen…). Grundlegend finde ich den Wortfinder sehr praktisch. Gerade die Möglichkeit, einfach einen Ordner auszuwählen, in dem dann alle Dateien eines definierten Typs eingelesen werden, gefällt mir sehr! Um ihn noch intuitiver zu machen, könntest du zwischen den Knöpfen oben Pfeile einfügen ( → ), dann ist klar, das man meistens eins nach dem anderen macht. Von der Geschwindigkeit bin ich allerdings noch nicht so begeistert. Ich habe es mal über einen Ordner von mir gejagt (1w6: https://bitbucket.org/ArneBab/1w6 ; 5MiB Text+HTML ) und es ist immernoch am Rechnen. Allerdings ist der Test auch fies: Die Dateien sind teils utf-8, teils noch iso-latin1 codiert (d.h. es hängen noch ein paar sehr alte drin). Ich habe den HTML Filter und einen replace(ews, 1w6) Filter drin. Das einzige, was mir jetzt noch fehlt, ist eine Ausgabeoption, mit der die ngramme als 123 ab ausgegeben werden, damit ich nicht noch einen weiteren Parser schreiben muss :) Wie gehst du eigentlich mit Zeilenumbrüchen um? (ich ersetze sie durch \\n (und \ durch \\) und mache beim Einlesen die entgegengesetzte Transformation). Liebe Grüße, Arne