Re: [Neo] Korpora und Lektionen erzeugen mit "WordFinder"

Michael Gattinger Thu, 16 Jun 2011 08:42:10 -0700

Am 11.06.2011 12:43, schrieb Arne Babenhauserheide:


Um ihn noch intuitiver zu machen, könntest du zwischen den Knöpfen oben Pfeile
einfügen ( → ), dann ist klar, das man meistens eins nach dem anderen macht.

Ich denke diese Feinabstimmung machen wir erst, wenn die Funktionalitätsteht.

Von der Geschwindigkeit bin ich allerdings noch nicht so begeistert. Ich habe es
mal über einen Ordner von mir gejagt (1w6: https://bitbucket.org/ArneBab/1w6 ;
5MiB Text+HTML ) und es ist immernoch am Rechnen. Allerdings ist der Test auch
fies: Die Dateien sind teils utf-8, teils noch iso-latin1 codiert (d.h. es
hängen noch ein paar sehr alte drin). Ich habe den HTML Filter und einen
replace(ews, 1w6) Filter drin.

Ließt du die Sachen direkt aus dem Internet? Das würde natürlich dazubeitragen. Weiter weiß ich nicht so ganz was man da schneller machensoll. Hauptsache es funktioniert erstmal. Desweiteren ist ja das Ziel,dass du dann irgendwann die Dateien nurnoch ein einziges mal Analysierstund das Ergebnis abspeicherst und immer wieder verwendest.Da wir mit NEO rausfinden wollen welche Zeichen wie oft benutzt werdenist es meiner Meinung nach unzulässig dann iso-Dateien einlesen zulassen. Standartmäßig versucht das Programm eine UTF-Codierung (8,16,32)zu finden und diese Anzuwenden. Wenn keine gefunden wird hatte ichursprünglich programmiert, dass dann UTF-8 eingelesen wird, demletzthabe ich es jedoch so abgeändert, dass eine Warnung ausgegeben wird undder Systemstandart wird benutzt. Ob das in der euch zur Verfügungstehenden Version bereits so war, weiß ich grad nicht. Ich bitte aberalle Eingabedateien UTF-8 zu codieren, ich habe auch nicht vor das zuändern, weil ich keinen Sinn darin sehe.

Re: [Neo] Korpora und Lektionen erzeugen mit "WordFinder"

Antwort per Email an