Am 11.06.2011 12:43, schrieb Arne Babenhauserheide:

Um ihn noch intuitiver zu machen, könntest du zwischen den Knöpfen oben Pfeile
einfügen ( → ), dann ist klar, das man meistens eins nach dem anderen macht.

Ich denke diese Feinabstimmung machen wir erst, wenn die Funktionalität steht.
Von der Geschwindigkeit bin ich allerdings noch nicht so begeistert. Ich habe es
mal über einen Ordner von mir gejagt (1w6: https://bitbucket.org/ArneBab/1w6 ;
5MiB Text+HTML ) und es ist immernoch am Rechnen. Allerdings ist der Test auch
fies: Die Dateien sind teils utf-8, teils noch iso-latin1 codiert (d.h. es
hängen noch ein paar sehr alte drin). Ich habe den HTML Filter und einen
replace(ews, 1w6) Filter drin.
Ließt du die Sachen direkt aus dem Internet? Das würde natürlich dazu beitragen. Weiter weiß ich nicht so ganz was man da schneller machen soll. Hauptsache es funktioniert erstmal. Desweiteren ist ja das Ziel, dass du dann irgendwann die Dateien nurnoch ein einziges mal Analysierst und das Ergebnis abspeicherst und immer wieder verwendest. Da wir mit NEO rausfinden wollen welche Zeichen wie oft benutzt werden ist es meiner Meinung nach unzulässig dann iso-Dateien einlesen zu lassen. Standartmäßig versucht das Programm eine UTF-Codierung (8,16,32) zu finden und diese Anzuwenden. Wenn keine gefunden wird hatte ich ursprünglich programmiert, dass dann UTF-8 eingelesen wird, demletzt habe ich es jedoch so abgeändert, dass eine Warnung ausgegeben wird und der Systemstandart wird benutzt. Ob das in der euch zur Verfügung stehenden Version bereits so war, weiß ich grad nicht. Ich bitte aber alle Eingabedateien UTF-8 zu codieren, ich habe auch nicht vor das zu ändern, weil ich keinen Sinn darin sehe.

Antwort per Email an