Am 2004-09-12 22:51:04, schrieb Bj�rn Schmidt: > Michelle Konzack wrote: > >Weil bei den 5000 W�rtern die ich in Tri-Gramme zerlegt habe, nur > >417 rausgekommen sind... die anderen waren alle doppelt. > > Ach so ..., sind das wirklich nur so wenig? Das w�re gut, denn es w�rde die > Wahrscheinlichkeit erh�hen unerw�nschte Trigramme zu erkennen. Sind die > 5000 W�rter aus dem Umgangssprachlichen oder sind es Namen? Letzteres > w�re etwas sinnvoller...
Hatte durch zufall eine Datei mit normalen W�rtern des deutschen Sprachgebrauchs. Also keine Namensliste. (Sowas h�tte ich noch gerne) > >X-Email-Tri-Gramm-Score: 4 of 7 found, 57% > > Ich w�rde die Scorerate nicht linear ansteigen lassen, denn lange Worte mit > 50% > Trigammen sind stark spamwahrscheinlicher als kurze Worte mit 50% (bei > Deiner > anteiligen Scoreberechnung). Aber wieviele SPAMer verwenden weniger als 7 Zeichen mit M�ll ? Habe keine einzige gefunden. die waren alle l�nger. Naja, wie man dann beim filtern das macht, kann je jedem selber �berlassen werden. Mann k�nnte den Header auch folgend ab�ndern X-Email-Tri-Gramm-Score: MAX=7, FOUND=4, RATE=57 Das l��t sich dann auch leicht parsen oder so. Jetzt m��te ich nur noch eine vern�nftige W�rter- und Namensliste herbekommen. Am besten auf deutsch, englisch und franz�sisch, was warscheinlich 99% der Tri-Gramme abdecken sollte Greetings Michelle -- Linux-User #280138 with the Linux Counter, http://counter.li.org/ Michelle Konzack Apt. 917 ICQ #328449886 50, rue de Soultz MSM LinuxMichi 0033/3/88452356 67100 Strasbourg/France IRC #Debian (irc.icq.com)
signature.pgp
Description: Digital signature

