Weil bei den 5000 W�rtern die ich in Tri-Gramme zerlegt habe, nur 417 rausgekommen sind... die anderen waren alle doppelt.
Ach so ..., sind das wirklich nur so wenig? Das w�re gut, denn es w�rde die Wahrscheinlichkeit erh�hen unerw�nschte Trigramme zu erkennen. Sind die 5000 W�rter aus dem Umgangssprachlichen oder sind es Namen? Letzteres w�re etwas sinnvoller...
Einen localpart in trigramme zerlegen sind Sekundenbruchteile...
Dann brauchste nur die Tri-Gramme in der Datenbank suchen. Allerdings sollte das nicht nach gefundenen Tri-Grammen gescort werden sondern nach Prozent.
Der mail-Header w�rde dann ungef�hr so aussehen:
X-Email-Tri-Gramm-Score: 4 of 7 found, 57%
Ich w�rde die Scorerate nicht linear ansteigen lassen, denn lange Worte mit 50% Trigammen sind stark spamwahrscheinlicher als kurze Worte mit 50% (bei Deiner anteiligen Scoreberechnung).
-- Mit freundlichen Gruessen Bjoern Schmidt
--
Haeufig gestellte Fragen und Antworten (FAQ): http://www.de.debian.org/debian-user-german-FAQ/
Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED] mit dem Subject "unsubscribe". Probleme? Mail an [EMAIL PROTECTED] (engl)

