Re: [Neo] Wie groß muss ein Korpus sein?

2009-12-30 Diskussionsfäden Dennis Heidsiek

Hallo allerseits,


Andreas ſchrieb am 28.12.2009 20:26 Uhr:

Um den Vorfaktor zu bekommen habe ich zwei Tastaturen […] mit verschiedenen 
Korpora bewertet und aus den Einzelergebnissen den relativen Fehler […] 
bestimmt.  Die Korpora habe ich aus dem Leipziger 1M-Korpus gewonnen,


Wenn die verglichenen Stichproben aus dem gleichen Korpus stammen, ist 
doch auch zu erwarten, dass sie sich nicht so sehr voneinander 
unterscheiden … interessanter fände ich es etwa, den 1M-Leipzig-Korpus 
mit einem 1M-Wikipedia-Korpus zu vergleichen.


Ansonsten dürfte unbestritten sein, dass bei selteneren Zeichen wie »αℤ 
ein größerer Testkorpus genauer bzw. aufschlussreicher wäre … da ist 
eher die Frage, ob dies für die automatische Optimierung überhaupt 
relevant ist oder vernachlässigt werden könnte. Aber wie soll man sonst 
überhaupt entscheiden, wie gut (oder schlecht?) etwa die Ellipse … 
angeordnet werden sollte? Von daher plädiere ich grundsätzlich eher für 
eine breitere Datenbasis des Neo-3-Korpuses. Und die Häufigkeiten 
seltenerer Zeichen mögen zwar für die Optimierung der ersten Ebene 
irrelevant sein, könnten aber in Hinsicht auf die Belegung der höheren 
Ebenen durchaus lesenswert sein.



Viele Grüße,
Dennis-ſ


PS: Und wer die Korpusfrage für vollkommen irrelevant hält, dem ſchlage 
ich auch weiterhin Goethes Fauſt (beide Theile) in gebrochener 
Originalſchreibweiſe vor ☺.





Re: [Neo] Dritte Ebene: Nur zum Spaß

2009-12-30 Diskussionsfäden Matthias Wächter
Am 29.12.2009 23:55, schrieb Ulf Bro:
 Dieses ist ein Beispiel dafür, wie sehr man die dritte Ebene lieben
 lernen kann. […]

Danke, Ulf, jetzt hast du mir den Tag „versaut“ – du hast mir endlich
den entscheidenden Anstoß gegeben, mich mit LilyPond auseinander zu
setzen. Als hätte ich nichts Wichtigeres zu tun! ;-)

– Mœsi



[Neo] lightning talk

2009-12-30 Diskussionsfäden Benjamin Kellermann
Hi!

ich wurde gerade gefragt, wo man die lightning talks findet, die ich mal
im CCC Umfeld gemacht habe. Die url die im Archiv ist geht nicht mehr,
hier ist eine die geht:
http://www1.inf.tu-dresden.de/~kellerma/

Ben



Re: [Neo] Dritte Ebene: Nur zum Spaß

2009-12-30 Diskussionsfäden Ulf Bro
 Danke, Ulf, jetzt hast du mir den Tag „versaut“ – du hast mir endlich
 den entscheidenden Anstoß gegeben, mich mit LilyPond auseinander zu
 setzen. Als hätte ich nichts Wichtigeres zu tun! ;-)

Hehe… mach das mal!

Warum? Weil: Die elenden Satzprogramme, die nur unter Windows laufen und
einen ganzen Wochenlohn kosten, oder noch mehr, die machen nicht so ein
schönes Notenblatt wie Lilypond. Wie von einer professionellen
Druckerei!

Du wirst aber ständig festfahren und nicht weiter kommen. Man findet die
Dinge nicht so leicht in der Dokumentation. Deshalb jetzt: schicke mir
eine Email und sag wenn es nicht mehr weiter geht, was du machen willst,
dann erkläre ich dir, wie es geht. Das ist ein Versprechen.

Mit den Mausklicke-Programmen sitzt man für ein einzelnes einfaches
Jazzlied 2, 3, 4 oder mehr Stunden da. Das tust du zwar anfangs auch mit
Lilypond. Neu kompilieren für jeden einzelnen Takt und gucken, was es
geworden ist („schon wieder eine Katastrofe, wie kriege ich dass denn
hin?“). Wenn du aber deine ersten 25 Stücke geschrieben hast, dann fängt
es an, schneller zu gehen. Hast du es jahrelang gemacht wie ich, dann
legst du das Notenbuch auf den Schoß mit einpaar Wäscheklammern dran,
und dann hämmerst du gnadenlos im Blindtippen den ganzen Kram rein in
einem Rutsch ohne Zwischenkompilieren, du gibst die Noten rein in
absoluter Notation statt relativer (deshalb die ganzen Apostrophen
drin), dann sind am Ende beim Korrekturlesen nur einzelne Ausrutscher
drin, und wir sprechen da nicht mehr über 3-4 Stunden, sondern über
15-30 Minuten, praktisch während du auf das Abendessen wartest kannst du
„Goodbye Pork Pie Hat“ eintasten (solange wir nicht Lyrics dazu setzen,
dann dauert es lange). Je nach Trainingszustand geht es beim Abschreiben
einer MP3-Datei (durch Abhören) ähnlich schnell (da schreibe ich
grundsätzlich nach dem Hören in C-Dur und transponiere dann am Ende mit
dem Befehl). Am Ende genügt dann ein „\transpose f g {…Musik…}“, um das
ganze in Bb-Stimme, Eb-Stimme oder was auch immer zu transponieren.

Also, mir genügt diese eigenwillige Freeware allemal.

Zu der Unbeliebtheit von Lilypond trägt sicher die schwerfällige
Qwertz-Tastatur bei sowie die allgemeine Unfähigkeit, blind zu tippen.
Es gibt Millionen von tüchtigen Musikern, die die unglaublichsten
Kunststücke auf ihrem Instrument vollbringen – nach tausenden von
Stunden introvertiertem Üben allein im stillen Dachkämmerlein – aber 25
Stunden Zeit für ein Blindschriftkursus, das haben sie nicht, und die
Energie aufbringen tun sie nicht, und eine geeignete Tastatur mit der
richtigen dritten Ebene auch nicht.

Die Welt enthält viele schwer verständliche Elemente.

Ulf




Re: [Neo] Wie groß muss ein Korpus sein?

2009-12-30 Diskussionsfäden wettstein509
 interessanter fände ich es etwa, den 1M-Leipzig-Korpus mit einem
 1M-Wikipedia-Korpus zu vergleichen.

Dann bekommt man allenfalls eine Aussage über den systematischen Fehler
und erfährt nichts über den statistischen Fehler.  Der systematische
Fehler hat nichts mit der Korpusgröße zu tun, sondern mit der geeigneten
Auswahl der Quellen.  Das ist wichtiges, aber ein anderes Thema.

 Ansonsten dürfte unbestritten sein, dass bei selteneren Zeichen wie »αℤ ein
 größerer Testkorpus genauer bzw. aufschlussreicher wäre … da ist eher die
 Frage, ob dies für die automatische Optimierung überhaupt relevant ist oder
 vernachlässigt werden könnte.

Wenn ein Zeichen wirklich selten ist spielt es automatisch in der
Gesamtwertung kaum keine Rolle, zumindest wenn man ein in den
Häufigkeiten lineares Beurteilungsschema verwendet.

Mit Sonderzeichen gibt noch ein ersteres Problem als die Statistik: Die
Häufigkeiten sind stark von der Quelle abhängig.  Zum Beispiel gibt es
im Leipziger Korpus recht viele geraden Anführungszeichen (), die
anstelle typographisch korrekter Anführungszeichen benutzt werden.
Würden wir das Neo-Mailinglisten-Archiv als Quelle benutzen wäre das
anders.  Bei Exoten wie ℤ muss man sogar sicherstellen, dass statt des
eigentlichen Zeichens nicht ein Bildchen verwendet wird; bei Mathematik
auf dem Web ist das immer noch üblich.

Vor dem Problem der Korpusgröße steht bei Sonderzeichen, insbesondere
seltenen, also das Problem der Quellenauswahl und allfälliger manueller
Nachbesserung.  Auch ein 3G Leipziger Korpus würde hier nichts helfen,
sondern im Gegenteil nur die manuelle Nachbesserung erschweren.

Andreas









Re: [Neo] Dritte Ebene: Nur zum Spaß

2009-12-30 Diskussionsfäden Pascal Hauck
Am Mittwoch, 30. Dezember 2009 16:32:06 schrieb Ulf Bro:
 Deshalb jetzt: schicke mir
 eine Email und sag wenn es nicht mehr weiter geht, was du machen willst,
 dann erkläre ich dir, wie es geht. Das ist ein Versprechen.

Darf ich mich da anschließen? Ein gutes Notensatzprogramm habe ich für Linux 
noch nicht. Aktuell steht zwar nichts an – darum werde ich mich nicht jetzt 
damit beschäftigen –, aber es ist gut zu wissen, dass man jemanden kennt, den 
man fragen kann.


Gruß,
Pascal

P.S. für eine Trompete eine nicht gerade einfache Etüde
P.P.S. danke für ein schlechtes Gewissen – habe seit über eine Woche nicht 
mehr geprobt


signature.asc
Description: This is a digitally signed message part.


Re: [Neo] Dritte Ebene: Nur zum Spaß

2009-12-30 Diskussionsfäden Benjamin Kellermann
Am Mittwoch, den 30.12.2009, 15:15 +0100 schrieb Matthias Wächter:
 Am 29.12.2009 23:55, schrieb Ulf Bro:
  Dieses ist ein Beispiel dafür, wie sehr man die dritte Ebene lieben
  lernen kann. […]
 
 Danke, Ulf, jetzt hast du mir den Tag „versaut“ – du hast mir endlich
 den entscheidenden Anstoß gegeben, mich mit LilyPond auseinander zu
 setzen. Als hätte ich nichts Wichtigeres zu tun! ;-)

da hier offenbar so viele Leute Spaß an LilyPond haben paste ich hier
mal mein Makefile, was ich immer damit benutze…
probiert damit mal „make watch“

Ben

DOC=$(shell basename $(shell pwd))

default: $(foreach i,$(DOC),$i.pdf)

PDFVIEWER=evince

%.pdf: *.ly
	lilypond $*

distclean: $(foreach i,$(DOC),distclean_$i)
distclean_%: 
	rm -f $(foreach ext,midi pdf,$*.$(ext))

clean: 
	rm -f $(foreach ext,ps,*.$(ext))

watch: $(foreach i,$(DOC),watch_$i)
watch_%: %.pdf
	if [ -f /tmp/$*_watch.pid ];then\
		WATCHID=`cat /tmp/$*_watch.pid`;\
		if [ `ps --pid $$WATCHID|wc -l` = 2 ];then echo \033[31mThere is another \make watch\ running!\033[0m; return 1; fi;\
	fi
	echo $$PPID  /tmp/$*_watch.pid
	cp $ /tmp/
	if [ -z `ps x |grep $(PDFVIEWER) /tmp/$ |grep -v grep` ];then $(PDFVIEWER) /tmp/$; fi
	while true; do\
		FILE=`inotifywait -r -e close_write --format=%w%f --exclude '(/[^\\.]*\$$|\\.swp\$$)' . 2/dev/null`;\
		EXT=`echo $$FILE|sed -e 's/^.*\.\([^.]*\)$$/\1/g'`;\
		case $$EXT in\
		ly);;\
		*)\
			echo $$FILE was modified and I don't know what to do!;\
			continue;\
			;;\
		esac;\
		lilypond $*;\
		if [ $$? -eq 0 ];then\
			cp $ /tmp/;\
		else\
			echo \033[31mSOMETHING WENT WRONG, PLEASE CHECK THE CONSOLE!!!\033[0m;\
		fi;\
	done