Re: [Neo] Korpora und Lektionen erzeugen mit WordFinder
Hidiho, hat eigentlich noch jemand Interesse an diesem WordFinder? Siehe Originalmail vom 31.05.2011 23:33 Hat ihn jemand benutzt um Lektionen zu erzeugen? Funktioniert der überhaupt und wünscht ihr euch noch Funktionen / Fertigstellung? Sinn des Projektes war es ja für eine beliebige Tastaturbelegung aus den häufigsten Wörtern Lektionen erzeugen zu können und zwar in der von euch festgelegten Lernreihenfolge der Buchstaben. Danke Michael
Re: [Neo] Korpora und Lektionen erzeugen mit WordFinder
Am 11.06.2011 12:43, schrieb Arne Babenhauserheide: Um ihn noch intuitiver zu machen, könntest du zwischen den Knöpfen oben Pfeile einfügen ( → ), dann ist klar, das man meistens eins nach dem anderen macht. Ich denke diese Feinabstimmung machen wir erst, wenn die Funktionalität steht. Von der Geschwindigkeit bin ich allerdings noch nicht so begeistert. Ich habe es mal über einen Ordner von mir gejagt (1w6: https://bitbucket.org/ArneBab/1w6 ; 5MiB Text+HTML ) und es ist immernoch am Rechnen. Allerdings ist der Test auch fies: Die Dateien sind teils utf-8, teils noch iso-latin1 codiert (d.h. es hängen noch ein paar sehr alte drin). Ich habe den HTML Filter und einen replace(ews, 1w6) Filter drin. Ließt du die Sachen direkt aus dem Internet? Das würde natürlich dazu beitragen. Weiter weiß ich nicht so ganz was man da schneller machen soll. Hauptsache es funktioniert erstmal. Desweiteren ist ja das Ziel, dass du dann irgendwann die Dateien nurnoch ein einziges mal Analysierst und das Ergebnis abspeicherst und immer wieder verwendest. Da wir mit NEO rausfinden wollen welche Zeichen wie oft benutzt werden ist es meiner Meinung nach unzulässig dann iso-Dateien einlesen zu lassen. Standartmäßig versucht das Programm eine UTF-Codierung (8,16,32) zu finden und diese Anzuwenden. Wenn keine gefunden wird hatte ich ursprünglich programmiert, dass dann UTF-8 eingelesen wird, demletzt habe ich es jedoch so abgeändert, dass eine Warnung ausgegeben wird und der Systemstandart wird benutzt. Ob das in der euch zur Verfügung stehenden Version bereits so war, weiß ich grad nicht. Ich bitte aber alle Eingabedateien UTF-8 zu codieren, ich habe auch nicht vor das zu ändern, weil ich keinen Sinn darin sehe.
Re: [Neo] Korpora und Lektionen erzeugen mit WordFinder
On Thursday 16 June 2011 17:26:10 Michael Gattinger wrote: Am 11.06.2011 12:43, schrieb Arne Babenhauserheide: https://bitbucket.org/ArneBab/1w6 ; 5MiB Text+HTML ) und es ist Ließt du die Sachen direkt aus dem Internet? Ich klone das Repo erst: hg clone https://bitbucket.org/ArneBab/1w6 Dann habe ich es vollständig lokal. Desweiteren ist ja das Ziel,dass du dann irgendwann die Dateien nurnoch ein einziges mal Analysierstund das Ergebnis abspeicherst und immer wieder verwendest. Das geht bisher schon. Da wir mit NEO rausfinden wollen welche Zeichen wie oft benutzt werdenist es meiner Meinung nach unzulässig dann iso-Dateien einlesen zulassen. Wieso? (ich mache es auch nicht, da bei mir fast alles in utf-8 ist, aber ein paar alte Dateien sind halt doch noch drin, und die könnten eine Fehlerquelle sein). bitte aberalle Eingabedateien UTF-8 zu codieren, ich habe auch nicht vor das zuändern, weil ich keinen Sinn darin sehe. Einen Sinn würde ich schon darin sehen (du machst ja die Aufbereitung in deinem Prog, da gehört imho auch die Anpassung der Kodierung dazu; Das gahört meiner Ansicht nach in die gleiche Kategorie wie regexp und suchen-ersetzen). Vielleicht mit einer Kodierungsauswahl beim Öffnen. Liebe Grüße, Arne -- singing a part of the history of free software: - http://infinite-hands.draketo.de signature.asc Description: This is a digitally signed message part.
Re: [Neo] Korpora und Lektionen erzeugen mit WordFinder
Michael Gattinger hypertrunks2 at googlemail.com writes: Guten Abend liebe Neoler,-Kurze Einleitung:ich Sprach an, dass ich ein Programm schreibe mit dem man Korpora untersuchen kann und auch beliebige tastaturlayoutorientierte Lektionen erstellen kann um eine beliebige Tastatur zu erlernen. Ich bin jetzt endlich dazu gekommen, den Wortfinder zu testen (war eine Woche nicht da und musste vorher noch viel Zeug machen…). Grundlegend finde ich den Wortfinder sehr praktisch. Gerade die Möglichkeit, einfach einen Ordner auszuwählen, in dem dann alle Dateien eines definierten Typs eingelesen werden, gefällt mir sehr! Um ihn noch intuitiver zu machen, könntest du zwischen den Knöpfen oben Pfeile einfügen ( → ), dann ist klar, das man meistens eins nach dem anderen macht. Von der Geschwindigkeit bin ich allerdings noch nicht so begeistert. Ich habe es mal über einen Ordner von mir gejagt (1w6: https://bitbucket.org/ArneBab/1w6 ; 5MiB Text+HTML ) und es ist immernoch am Rechnen. Allerdings ist der Test auch fies: Die Dateien sind teils utf-8, teils noch iso-latin1 codiert (d.h. es hängen noch ein paar sehr alte drin). Ich habe den HTML Filter und einen replace(ews, 1w6) Filter drin. Das einzige, was mir jetzt noch fehlt, ist eine Ausgabeoption, mit der die ngramme als 123 ab ausgegeben werden, damit ich nicht noch einen weiteren Parser schreiben muss :) Wie gehst du eigentlich mit Zeilenumbrüchen um? (ich ersetze sie durch \\n (und \ durch \\) und mache beim Einlesen die entgegengesetzte Transformation). Liebe Grüße, Arne
Re: [Neo] Korpora und Lektionen erzeugen mit WordFinder
Hallo, ich bin noch nicht dazugekommen, mir das Programm genauer anzuschauen. Trotzdem schon mal Hut ab vor der Leistung. Michael Gattinger schrieb am 31.05.2011 um 23:33 Uhr: Programm Siehe Dateianhang 1,7MB an eine Mailingliste zu schicken ist schon etwas viel. Es wäre nett, wenn du es in Zukunft bei dem Link belassen könntest. Gruß Florian signature.asc Description: OpenPGP digital signature
Re: [Neo] Korpora und Lektionen erzeugen mit WordFinder
Super! Nachdem ich seit einiger Zeit erfolglos die Häufigkeit von Bigrammen mit ß suche, werde ich mir jetzt selber welche errechnen. Vielen Dank dafür. Jurek