Michelle Konzack wrote:
Weil bei den 5000 Wörtern die ich in Tri-Gramme zerlegt habe, nur 417 rausgekommen sind... die anderen waren alle doppelt.

Ach so ..., sind das wirklich nur so wenig? Das wäre gut, denn es würde die Wahrscheinlichkeit erhöhen unerwünschte Trigramme zu erkennen. Sind die 5000 Wörter aus dem Umgangssprachlichen oder sind es Namen? Letzteres wäre etwas sinnvoller...

Einen localpart in trigramme zerlegen sind Sekundenbruchteile...
Dann brauchste nur die Tri-Gramme in der Datenbank suchen. Allerdings sollte das nicht nach gefundenen Tri-Grammen gescort werden sondern nach Prozent.


Der mail-Header würde dann ungefähr so aussehen:

X-Email-Tri-Gramm-Score: 4 of 7 found, 57%

Ich würde die Scorerate nicht linear ansteigen lassen, denn lange Worte mit 50% Trigammen sind stark spamwahrscheinlicher als kurze Worte mit 50% (bei Deiner anteiligen Scoreberechnung).


-- Mit freundlichen Gruessen Bjoern Schmidt


--
Haeufig gestellte Fragen und Antworten (FAQ): http://www.de.debian.org/debian-user-german-FAQ/


Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject "unsubscribe". Probleme? Mail an [EMAIL PROTECTED] (engl)



Antwort per Email an