Knittl wrote: > nehme ich alle meine irc logs (deutsch, englisch, etwas lojban) steigt > die anzahl der grundreihenwörter wesentlich. das dauert jetzt aber, > sind immerhin 340 mb an logs. in diesem fall wäre eine perl-lösung > vermutlich wesentlich effizienter (wer hat lust?)
Schau einfach in das Skript, das ich gepostet habe. ./wordfilter.py --letters uiaeodtnrsj Die*.txt --length 1 | sort | uniq Ist um den Faktor 8 schneller als "grep -i ... | sort -u" (Groß- und Kleinschreibung wird ignoriert)
