Knittl schrieb:
2009/9/10 Knittl <[email protected]>:
hier einige interessante ergebnisse:

   $ find .purple/logs/ -type f | xargs cat | grep -iow
'[uiaeosnrtdy]\+' | sort -u | wc
      4059    4059   27829

hat noch optimierungspotenzial *g*:

    $ rgrep -iowh '[uiaeosnrtdy]\+' .purple/logs | sort -u | wc

sollte die gleichen ergebnisse liefern – man muss nur manpages lesen,
und den parameter -h finden :)

tut es bei neo auch, bei qwertz werden mir aber irgendwie 4 wörter
weniger angezeigt – gut für neo :D – aber seltsam

was jetzt noch fehlt ist ein grep, welches
timestamps/nicknames/statusmessages rausfiltert. das ganze kann dann
auch auf mbox files, irc-logs angewandt werden. bin auf die ergebnisse
gespannt.

theoretisch könnten auch noch die buchstaben [lcg] in die gruppe
aufgenommen werden, diese sind imho auch sehr gut zu tippen

lg, daniel

ps. für den [#neo](http://wiki.neo-layout.org/wiki/IRC) channel:

    $ grep -iowh '[uiaeosnrtdy]\+' logs/freenode_#neo.log | sort -u | wc
       2788    2788   18479

nehme ich alle meine irc logs (deutsch, englisch, etwas lojban) steigt
die anzahl der grundreihenwörter wesentlich. das dauert jetzt aber,
sind immerhin 340 mb an logs. in diesem fall wäre eine perl-lösung
vermutlich wesentlich effizienter (wer hat lust?)

Ich habe den Befehl von knittl mal ein bissel umgebaut zu

$ grep -riowh '[uiaeosnrtdy]\+' ~/.xchat/xchatlogs/ | sort -u | tee 2&>1 log.txt

das gleich dann nochmal mit der qwertz Grundreihe.

Nun habe ich hier zwei Wortlisten mit den Wörtern, die so im irc (deutsche channel) getippt werden.

http://c.puetter.info/w%C3%B6rter_qwertz.txt
http://c.puetter.info/w%C3%B6rter_neo.txt

Wie man auch sehen kann, mit der qwertz Grundreihe werden viel mehr Worte geschrieben, die im normalen Umgang nicht auftauchen.

Gruß Christian.

Antwort per Email an