Am 2004-09-12 14:36:49, schrieb Bj�rn Schmidt: > Jan Kesten wrote: > >Abgesehen davon ist so eine Analyse immer an eine gewisse > >Mindestmenge an Text gebunden und die paar Zeichen des Localpart > >sind ja nun leider relativ wenig. > > Was ist denn mit Trigrammen? Man k�nnte doch ein Programm schreiben > dass localparts mit Trigrammen die "einfach nicht sein k�nnen", wie > z.B. xyc oder pkp bewertet. Ein localpart mit 6 Zeichen k�nnte da schon > vier Spam-Punkte bekommen. F�r Wortenden und kurze Worte kann man ja > auch auf Bigramme ausweichen. Michelles Adresse jvyqfuwzyz h�tte da sicher > 6-7 Spampunkte bekommen.
�hm, bei "jvyqfuwzyz" gibt es ja nur 8 M�glichkeiten... Habe hier eine Worltiste gefunden, die ganzen w�rter in Tri-Gramme aufgesplittet "sort" und "uniq" angewandt und habe bei dem vorstehenden localpart 8 Miese bekommen. jvy, vyq, yqf, qfu, fuw, uwz, wzy und zyz habe ich kein einziges mal in 5.000 deutschen W�ertern gefunden. Achtung: Es sind NUR 417 Tri-Gramme. Greetings Michelle -- Linux-User #280138 with the Linux Counter, http://counter.li.org/ Michelle Konzack Apt. 917 ICQ #328449886 50, rue de Soultz MSM LinuxMichi 0033/3/88452356 67100 Strasbourg/France IRC #Debian (irc.icq.com)
signature.pgp
Description: Digital signature

