Re: Bayes fr bizzare E-Mail-Adressen ?

2004-09-13 Diskussionsfäden Bjrn Schmidt
Jan Kesten wrote:
Das Problem hier wird sein, dass sobald man anfängt danach zu
filtern auch die Spammer anfangen werden, ihre Mailadressen aus
gültigen Trigrammen zusammenzusetzen. Das sollte für die weniger
Arbeit werden als es für uns sein wird danach zu analysieren.
Sicher, das ist ein ständiges Hin und her. Wir bauen Filter, die passen
sich an. Ist besser als gar nichts zu tun...
--
Mit freundlichen Gruessen
Bjoern Schmidt
--
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject unsubscribe. Probleme? Mail an [EMAIL PROTECTED] (engl)


Re: Bayes fr bizzare E-Mail-Adressen ?

2004-09-12 Diskussionsfäden Jrg Schtter
Hello Michelle,

On Sun, 12 Sep 2004 10:59:32 +0200
Michelle Konzack [EMAIL PROTECTED] wrote:

 Moin Leute, 
 
 Habe gerade in meine Private Mailbox gesehen uns sowas vorgefunden
 
    ( 'stdin' ) _
  /
 |  From: Rebecca Tackett [EMAIL PROTECTED]
 ^^
 E-Mails mit solchen Müll-Adressen gehn alle 
 durch den spamassassin ungehindert durch.
 
 Hat jemand eine Idee, wie ich 'spamassassin' dazu überreden könnte 
 den SCORE für derartige E-Mail-Adressen auf 4 zu setzen ?

entspricht zwar nicht Deiner Anforderung, aber hast Du es
schonmal mit RulesDuJour
http://www.exit0.us/index.php/RulesDuJour versucht?
 
 Leider kann ich pacbell.net nicht blacklisten...
 

Jörg

-- 
Jörg Schütter   http://tinyurl.com/ select one from below
[EMAIL PROTECTED]24zepyu8oxmkly 3bmde2hanb
ICQ: 298982789  



Re: Bayes fr bizzare E-Mail-Adressen ?

2004-09-12 Diskussionsfäden Bjrn Schmidt
Michelle Konzack wrote:
Ähm, bei jvyqfuwzyz gibt es ja nur 8 Möglichkeiten...
Ja und? Es reichen doch schon 3 matches...
Habe hier eine Worltiste gefunden, die ganzen würter in 
Tri-Gramme aufgesplittet sort und uniq angewandt und 
habe bei dem vorstehenden localpart 8 Miese bekommen.

jvy, vyq, yqf, qfu, fuw, uwz, wzy und zyz habe ich kein 
einziges mal in 5.000 deutschen Wöertern gefunden.
Gt. 8 Punkte und wech. Wobei ich glaube dass sich für fwu und uwz
mind. ein Kandidat finden wird...
Achtung:Es sind NUR 417 Tri-Gramme.
Verstehe ich nicht.
--
Mit freundlichen Gruessen
Bjoern Schmidt
--
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject unsubscribe. Probleme? Mail an [EMAIL PROTECTED] (engl)


Re: Bayes fr bizzare E-Mail-Adressen ?

2004-09-12 Diskussionsfäden Bjrn Schmidt
Michelle Konzack wrote:
Ähm, bei jvyqfuwzyz gibt es ja nur 8 Möglichkeiten...
Habe hier eine Worltiste gefunden, die ganzen würter in 
Wortlistenvergleiche mit Wortern aus der dt. Sprache sind hier ineffizient.
Ich würde mit einer Wortliste vergleichen in der absolut unmögliche Tridingsda
drin stehen. Die muß man natürlich manuell mühsam aufbauen, dürfte dann
aber relativ kurz ausfallen.
--
Mit freundlichen Gruessen
Bjoern Schmidt
--
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject unsubscribe. Probleme? Mail an [EMAIL PROTECTED] (engl)


Re: Bayes fr bizzare E-Mail-Adressen ?

2004-09-12 Diskussionsfäden Bjrn Schmidt
Michelle Konzack wrote:
Aber über 7.000 E-Mailadressen in eine White-List ?
Da wird man mir nem einfachen procmailfilter nicht mehr hinkommen.
Um die zu verwalten brauchste dann ein C-Program oder so. Selbst 
'perl' dürfte es nicht in einer angemessenen Zeit fertigbringen. 

Das würde nur gehen, wenn der Whitelist manager à la 'spamc' arbeiten 
würde, also als daemon. 
Kann man die whitelist vom spamd nicht in mysql halten? Dann ist das
doch alles was Du brauchst.
--
Mit freundlichen Gruessen
Bjoern Schmidt
--
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject unsubscribe. Probleme? Mail an [EMAIL PROTECTED] (engl)


Re: Bayes fr bizzare E-Mail-Adressen ?

2004-09-12 Diskussionsfäden Bjrn Schmidt
Michelle Konzack wrote:
Achtung:Es sind NUR 417 Tri-Gramme.
Verstehe ich nicht.

5.000 Wörter hören sich viel an, aber si könne aus den 417 Tri-Grammen 
zusammengesetz werden :-)

Sprich, wenn man so nen Tri-Gramm-Checker sich bastelt und ein 
Deutsches Wörterbuch mit 100.000 Stichwörtern nimmt, werden das 
dann effektiv vieleicht 4000-5000 Tri-Gramme werden. 

Also eine Anzahl, die sich verwalten läßt... :-)
Ich verstehs immer noch nicht. Warum 417?
--
Mit freundlichen Gruessen
Bjoern Schmidt
--
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject unsubscribe. Probleme? Mail an [EMAIL PROTECTED] (engl)


Re: Bayes fr bizzare E-Mail-Adressen ?

2004-09-12 Diskussionsfäden Jan Kesten
-BEGIN PGP SIGNED MESSAGE-
Hash: SHA1
Björn Schmidt wrote:
| Kann man die whitelist vom spamd nicht in mysql halten? Dann ist
| das doch alles was Du brauchst.
Hallo, Björn!
Das ist ja echt eine prima Idee, hätte ich ja auch drauf kommen
können. Zur Zeit verwende ich ein Python-Script, welches die
Adressen in einer PostgreSQL Datenbank hält und dann mit einem Query
nachfragt.
Sollte ich vielleicht wirklich noch einen Client scheiben und das
Skript mit einem Netzwerk-Deamon versehen, sollte nicht schwer
werden. Hab ich die Tage mal wieder was zu tun :-) Noch jemand
interesse an sowas?
Cheers,
Jan
- --
GPG-KeyID: 82201FC4
Available at my public keyserver www.gpg-keyserver.de
-BEGIN PGP SIGNATURE-
Version: GnuPG v1.2.4 (MingW32)
Comment: Using GnuPG with Mozilla - http://enigmail.mozdev.org
iD8DBQFBRIU8vvmCkIIgH8QRAr2FAJ0a+vzWOokpZ40NXbUfkiMWUmUBDgCgo9w4
UK03aoHUnBTPbe+fHBpZCkY=
=/JHV
-END PGP SIGNATURE-
--
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject unsubscribe. Probleme? Mail an [EMAIL PROTECTED] (engl)


Re: Bayes fr bizzare E-Mail-Adressen ?

2004-09-12 Diskussionsfäden Bjrn Schmidt
Michelle Konzack wrote:
Weil bei den 5000 Wörtern die ich in Tri-Gramme zerlegt habe, nur 
417 rausgekommen sind... die anderen waren alle doppelt.
Ach so ..., sind das wirklich nur so wenig? Das wäre gut, denn es würde die
Wahrscheinlichkeit erhöhen unerwünschte Trigramme zu erkennen. Sind die
5000 Wörter aus dem Umgangssprachlichen oder sind es Namen? Letzteres
wäre etwas sinnvoller...
Einen localpart in trigramme zerlegen sind Sekundenbruchteile...
Dann brauchste nur die Tri-Gramme in der Datenbank suchen. 
Allerdings sollte das nicht nach gefundenen Tri-Grammen gescort 
werden sondern nach Prozent.

Der mail-Header würde dann ungefähr so aussehen:
X-Email-Tri-Gramm-Score: 4 of 7 found, 57%
Ich würde die Scorerate nicht linear ansteigen lassen, denn lange Worte mit 50%
Trigammen sind stark spamwahrscheinlicher als kurze Worte mit 50% (bei Deiner
anteiligen Scoreberechnung).
--
Mit freundlichen Gruessen
Bjoern Schmidt
--
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject unsubscribe. Probleme? Mail an [EMAIL PROTECTED] (engl)