Re: [Neo] Wie groß muss ein Korpus sein?
Hallo allerseits, Andreas ſchrieb am 28.12.2009 20:26 Uhr: Um den Vorfaktor zu bekommen habe ich zwei Tastaturen […] mit verschiedenen Korpora bewertet und aus den Einzelergebnissen den relativen Fehler […] bestimmt. Die Korpora habe ich aus dem Leipziger 1M-Korpus gewonnen, Wenn die verglichenen Stichproben aus dem gleichen Korpus stammen, ist doch auch zu erwarten, dass sie sich nicht so sehr voneinander unterscheiden … interessanter fände ich es etwa, den 1M-Leipzig-Korpus mit einem 1M-Wikipedia-Korpus zu vergleichen. Ansonsten dürfte unbestritten sein, dass bei selteneren Zeichen wie »αℤ ein größerer Testkorpus genauer bzw. aufschlussreicher wäre … da ist eher die Frage, ob dies für die automatische Optimierung überhaupt relevant ist oder vernachlässigt werden könnte. Aber wie soll man sonst überhaupt entscheiden, wie gut (oder schlecht?) etwa die Ellipse … angeordnet werden sollte? Von daher plädiere ich grundsätzlich eher für eine breitere Datenbasis des Neo-3-Korpuses. Und die Häufigkeiten seltenerer Zeichen mögen zwar für die Optimierung der ersten Ebene irrelevant sein, könnten aber in Hinsicht auf die Belegung der höheren Ebenen durchaus lesenswert sein. Viele Grüße, Dennis-ſ PS: Und wer die Korpusfrage für vollkommen irrelevant hält, dem ſchlage ich auch weiterhin Goethes Fauſt (beide Theile) in gebrochener Originalſchreibweiſe vor ☺.
Re: [Neo] Dritte Ebene: Nur zum Spaß
Am 29.12.2009 23:55, schrieb Ulf Bro: Dieses ist ein Beispiel dafür, wie sehr man die dritte Ebene lieben lernen kann. […] Danke, Ulf, jetzt hast du mir den Tag „versaut“ – du hast mir endlich den entscheidenden Anstoß gegeben, mich mit LilyPond auseinander zu setzen. Als hätte ich nichts Wichtigeres zu tun! ;-) – Mœsi
[Neo] lightning talk
Hi! ich wurde gerade gefragt, wo man die lightning talks findet, die ich mal im CCC Umfeld gemacht habe. Die url die im Archiv ist geht nicht mehr, hier ist eine die geht: http://www1.inf.tu-dresden.de/~kellerma/ Ben
Re: [Neo] Dritte Ebene: Nur zum Spaß
Danke, Ulf, jetzt hast du mir den Tag „versaut“ – du hast mir endlich den entscheidenden Anstoß gegeben, mich mit LilyPond auseinander zu setzen. Als hätte ich nichts Wichtigeres zu tun! ;-) Hehe… mach das mal! Warum? Weil: Die elenden Satzprogramme, die nur unter Windows laufen und einen ganzen Wochenlohn kosten, oder noch mehr, die machen nicht so ein schönes Notenblatt wie Lilypond. Wie von einer professionellen Druckerei! Du wirst aber ständig festfahren und nicht weiter kommen. Man findet die Dinge nicht so leicht in der Dokumentation. Deshalb jetzt: schicke mir eine Email und sag wenn es nicht mehr weiter geht, was du machen willst, dann erkläre ich dir, wie es geht. Das ist ein Versprechen. Mit den Mausklicke-Programmen sitzt man für ein einzelnes einfaches Jazzlied 2, 3, 4 oder mehr Stunden da. Das tust du zwar anfangs auch mit Lilypond. Neu kompilieren für jeden einzelnen Takt und gucken, was es geworden ist („schon wieder eine Katastrofe, wie kriege ich dass denn hin?“). Wenn du aber deine ersten 25 Stücke geschrieben hast, dann fängt es an, schneller zu gehen. Hast du es jahrelang gemacht wie ich, dann legst du das Notenbuch auf den Schoß mit einpaar Wäscheklammern dran, und dann hämmerst du gnadenlos im Blindtippen den ganzen Kram rein in einem Rutsch ohne Zwischenkompilieren, du gibst die Noten rein in absoluter Notation statt relativer (deshalb die ganzen Apostrophen drin), dann sind am Ende beim Korrekturlesen nur einzelne Ausrutscher drin, und wir sprechen da nicht mehr über 3-4 Stunden, sondern über 15-30 Minuten, praktisch während du auf das Abendessen wartest kannst du „Goodbye Pork Pie Hat“ eintasten (solange wir nicht Lyrics dazu setzen, dann dauert es lange). Je nach Trainingszustand geht es beim Abschreiben einer MP3-Datei (durch Abhören) ähnlich schnell (da schreibe ich grundsätzlich nach dem Hören in C-Dur und transponiere dann am Ende mit dem Befehl). Am Ende genügt dann ein „\transpose f g {…Musik…}“, um das ganze in Bb-Stimme, Eb-Stimme oder was auch immer zu transponieren. Also, mir genügt diese eigenwillige Freeware allemal. Zu der Unbeliebtheit von Lilypond trägt sicher die schwerfällige Qwertz-Tastatur bei sowie die allgemeine Unfähigkeit, blind zu tippen. Es gibt Millionen von tüchtigen Musikern, die die unglaublichsten Kunststücke auf ihrem Instrument vollbringen – nach tausenden von Stunden introvertiertem Üben allein im stillen Dachkämmerlein – aber 25 Stunden Zeit für ein Blindschriftkursus, das haben sie nicht, und die Energie aufbringen tun sie nicht, und eine geeignete Tastatur mit der richtigen dritten Ebene auch nicht. Die Welt enthält viele schwer verständliche Elemente. Ulf
Re: [Neo] Wie groß muss ein Korpus sein?
interessanter fände ich es etwa, den 1M-Leipzig-Korpus mit einem 1M-Wikipedia-Korpus zu vergleichen. Dann bekommt man allenfalls eine Aussage über den systematischen Fehler und erfährt nichts über den statistischen Fehler. Der systematische Fehler hat nichts mit der Korpusgröße zu tun, sondern mit der geeigneten Auswahl der Quellen. Das ist wichtiges, aber ein anderes Thema. Ansonsten dürfte unbestritten sein, dass bei selteneren Zeichen wie »αℤ ein größerer Testkorpus genauer bzw. aufschlussreicher wäre … da ist eher die Frage, ob dies für die automatische Optimierung überhaupt relevant ist oder vernachlässigt werden könnte. Wenn ein Zeichen wirklich selten ist spielt es automatisch in der Gesamtwertung kaum keine Rolle, zumindest wenn man ein in den Häufigkeiten lineares Beurteilungsschema verwendet. Mit Sonderzeichen gibt noch ein ersteres Problem als die Statistik: Die Häufigkeiten sind stark von der Quelle abhängig. Zum Beispiel gibt es im Leipziger Korpus recht viele geraden Anführungszeichen (), die anstelle typographisch korrekter Anführungszeichen benutzt werden. Würden wir das Neo-Mailinglisten-Archiv als Quelle benutzen wäre das anders. Bei Exoten wie ℤ muss man sogar sicherstellen, dass statt des eigentlichen Zeichens nicht ein Bildchen verwendet wird; bei Mathematik auf dem Web ist das immer noch üblich. Vor dem Problem der Korpusgröße steht bei Sonderzeichen, insbesondere seltenen, also das Problem der Quellenauswahl und allfälliger manueller Nachbesserung. Auch ein 3G Leipziger Korpus würde hier nichts helfen, sondern im Gegenteil nur die manuelle Nachbesserung erschweren. Andreas
Re: [Neo] Dritte Ebene: Nur zum Spaß
Am Mittwoch, 30. Dezember 2009 16:32:06 schrieb Ulf Bro: Deshalb jetzt: schicke mir eine Email und sag wenn es nicht mehr weiter geht, was du machen willst, dann erkläre ich dir, wie es geht. Das ist ein Versprechen. Darf ich mich da anschließen? Ein gutes Notensatzprogramm habe ich für Linux noch nicht. Aktuell steht zwar nichts an – darum werde ich mich nicht jetzt damit beschäftigen –, aber es ist gut zu wissen, dass man jemanden kennt, den man fragen kann. Gruß, Pascal P.S. für eine Trompete eine nicht gerade einfache Etüde P.P.S. danke für ein schlechtes Gewissen – habe seit über eine Woche nicht mehr geprobt signature.asc Description: This is a digitally signed message part.
Re: [Neo] Dritte Ebene: Nur zum Spaß
Am Mittwoch, den 30.12.2009, 15:15 +0100 schrieb Matthias Wächter: Am 29.12.2009 23:55, schrieb Ulf Bro: Dieses ist ein Beispiel dafür, wie sehr man die dritte Ebene lieben lernen kann. […] Danke, Ulf, jetzt hast du mir den Tag „versaut“ – du hast mir endlich den entscheidenden Anstoß gegeben, mich mit LilyPond auseinander zu setzen. Als hätte ich nichts Wichtigeres zu tun! ;-) da hier offenbar so viele Leute Spaß an LilyPond haben paste ich hier mal mein Makefile, was ich immer damit benutze… probiert damit mal „make watch“ Ben DOC=$(shell basename $(shell pwd)) default: $(foreach i,$(DOC),$i.pdf) PDFVIEWER=evince %.pdf: *.ly lilypond $* distclean: $(foreach i,$(DOC),distclean_$i) distclean_%: rm -f $(foreach ext,midi pdf,$*.$(ext)) clean: rm -f $(foreach ext,ps,*.$(ext)) watch: $(foreach i,$(DOC),watch_$i) watch_%: %.pdf if [ -f /tmp/$*_watch.pid ];then\ WATCHID=`cat /tmp/$*_watch.pid`;\ if [ `ps --pid $$WATCHID|wc -l` = 2 ];then echo \033[31mThere is another \make watch\ running!\033[0m; return 1; fi;\ fi echo $$PPID /tmp/$*_watch.pid cp $ /tmp/ if [ -z `ps x |grep $(PDFVIEWER) /tmp/$ |grep -v grep` ];then $(PDFVIEWER) /tmp/$; fi while true; do\ FILE=`inotifywait -r -e close_write --format=%w%f --exclude '(/[^\\.]*\$$|\\.swp\$$)' . 2/dev/null`;\ EXT=`echo $$FILE|sed -e 's/^.*\.\([^.]*\)$$/\1/g'`;\ case $$EXT in\ ly);;\ *)\ echo $$FILE was modified and I don't know what to do!;\ continue;\ ;;\ esac;\ lilypond $*;\ if [ $$? -eq 0 ];then\ cp $ /tmp/;\ else\ echo \033[31mSOMETHING WENT WRONG, PLEASE CHECK THE CONSOLE!!!\033[0m;\ fi;\ done