2009/9/10 Arne Babenhauserheide:
> Knittl wrote:
>
>> nehme ich alle meine irc logs (deutsch, englisch, etwas lojban) steigt
>> die anzahl der grundreihenwörter wesentlich. das dauert jetzt aber,
>> sind immerhin 340 mb an logs. in diesem fall wäre eine perl-lösung
>> vermutlich wesentlich effizienter (wer hat lust?)
>
> Schau einfach in das Skript, das ich gepostet habe.
>
> ./wordfilter.py --letters uiaeodtnrsj Die*.txt --length 1 | sort | uniq
>
> Ist um den Faktor 8 schneller als "grep -i ... | sort -u"
>
> (Groß- und Kleinschreibung wird ignoriert)

das script könnte sich dann aber auch gleich um sort und uniq kümmern ;)

und perl ist irgendwie die klischee-sprache schlechthin für solche
aufgaben, darum hab ich gemeint.

meine irc-logs greppe ich übrigens immer noch – eine stunde läuft das schon *g*
evtl. hätte ich wc -l nehmen sollen, ich kann mir gut vorstellen, dass
das bei solchen datenmengen doch einen unterschied macht, ob jedes
zeichen und wort oder nur die zeilenenden gezählt werden müssen.

lg, daniel


-- 
myFtPhp -- visit http://myftphp.sf.net -- v. 0.4.7 released!

Antwort per Email an