Am 2004-09-12 22:51:04, schrieb Bj�rn Schmidt:
> Michelle Konzack wrote:
> >Weil bei den 5000 W�rtern die ich in Tri-Gramme zerlegt habe, nur 
> >417 rausgekommen sind... die anderen waren alle doppelt.
> 
> Ach so ..., sind das wirklich nur so wenig? Das w�re gut, denn es w�rde die
> Wahrscheinlichkeit erh�hen unerw�nschte Trigramme zu erkennen. Sind die
> 5000 W�rter aus dem Umgangssprachlichen oder sind es Namen? Letzteres
> w�re etwas sinnvoller...

Hatte durch zufall eine Datei mit normalen W�rtern des deutschen 
Sprachgebrauchs. Also keine Namensliste. (Sowas h�tte ich noch gerne)

> >X-Email-Tri-Gramm-Score: 4 of 7 found, 57%
> 
> Ich w�rde die Scorerate nicht linear ansteigen lassen, denn lange Worte mit 
> 50%
> Trigammen sind stark spamwahrscheinlicher als kurze Worte mit 50% (bei 
> Deiner
> anteiligen Scoreberechnung).

Aber wieviele SPAMer verwenden weniger als 7 Zeichen mit M�ll ?
Habe keine einzige gefunden. die waren alle l�nger. 

Naja, wie man dann beim filtern das macht, kann je jedem selber 
�berlassen werden. Mann k�nnte den Header auch folgend ab�ndern

X-Email-Tri-Gramm-Score: MAX=7, FOUND=4, RATE=57

Das l��t sich dann auch leicht parsen oder so.

Jetzt m��te ich nur noch eine vern�nftige W�rter- und Namensliste
herbekommen. Am besten auf deutsch, englisch und franz�sisch, was 
warscheinlich 99% der Tri-Gramme abdecken sollte

Greetings
Michelle

-- 
Linux-User #280138 with the Linux Counter, http://counter.li.org/ 
Michelle Konzack   Apt. 917                  ICQ #328449886
                   50, rue de Soultz         MSM LinuxMichi
0033/3/88452356    67100 Strasbourg/France   IRC #Debian (irc.icq.com)

Attachment: signature.pgp
Description: Digital signature

Antwort per Email an