Michelle Konzack wrote:
Weil bei den 5000 W�rtern die ich in Tri-Gramme zerlegt habe, nur 417 rausgekommen sind... die anderen waren alle doppelt.

Ach so ..., sind das wirklich nur so wenig? Das w�re gut, denn es w�rde die Wahrscheinlichkeit erh�hen unerw�nschte Trigramme zu erkennen. Sind die 5000 W�rter aus dem Umgangssprachlichen oder sind es Namen? Letzteres w�re etwas sinnvoller...

Einen localpart in trigramme zerlegen sind Sekundenbruchteile...
Dann brauchste nur die Tri-Gramme in der Datenbank suchen. Allerdings sollte das nicht nach gefundenen Tri-Grammen gescort werden sondern nach Prozent.


Der mail-Header w�rde dann ungef�hr so aussehen:

X-Email-Tri-Gramm-Score: 4 of 7 found, 57%

Ich w�rde die Scorerate nicht linear ansteigen lassen, denn lange Worte mit 50% Trigammen sind stark spamwahrscheinlicher als kurze Worte mit 50% (bei Deiner anteiligen Scoreberechnung).


-- Mit freundlichen Gruessen Bjoern Schmidt


--
Haeufig gestellte Fragen und Antworten (FAQ): http://www.de.debian.org/debian-user-german-FAQ/


Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject "unsubscribe". Probleme? Mail an [EMAIL PROTECTED] (engl)



Antwort per Email an