Re: Bayes fr bizzare E-Mail-Adressen ?
Jan Kesten wrote: Das Problem hier wird sein, dass sobald man anfängt danach zu filtern auch die Spammer anfangen werden, ihre Mailadressen aus gültigen Trigrammen zusammenzusetzen. Das sollte für die weniger Arbeit werden als es für uns sein wird danach zu analysieren. Sicher, das ist ein ständiges Hin und her. Wir bauen Filter, die passen sich an. Ist besser als gar nichts zu tun... -- Mit freundlichen Gruessen Bjoern Schmidt -- Haeufig gestellte Fragen und Antworten (FAQ): http://www.de.debian.org/debian-user-german-FAQ/ Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED] mit dem Subject unsubscribe. Probleme? Mail an [EMAIL PROTECTED] (engl)
Re: Bayes fr bizzare E-Mail-Adressen ?
Hello Michelle, On Sun, 12 Sep 2004 10:59:32 +0200 Michelle Konzack [EMAIL PROTECTED] wrote: Moin Leute, Habe gerade in meine Private Mailbox gesehen uns sowas vorgefunden ( 'stdin' ) _ / | From: Rebecca Tackett [EMAIL PROTECTED] ^^ E-Mails mit solchen Müll-Adressen gehn alle durch den spamassassin ungehindert durch. Hat jemand eine Idee, wie ich 'spamassassin' dazu überreden könnte den SCORE für derartige E-Mail-Adressen auf 4 zu setzen ? entspricht zwar nicht Deiner Anforderung, aber hast Du es schonmal mit RulesDuJour http://www.exit0.us/index.php/RulesDuJour versucht? Leider kann ich pacbell.net nicht blacklisten... Jörg -- Jörg Schütter http://tinyurl.com/ select one from below [EMAIL PROTECTED]24zepyu8oxmkly 3bmde2hanb ICQ: 298982789
Re: Bayes fr bizzare E-Mail-Adressen ?
Michelle Konzack wrote: Ähm, bei jvyqfuwzyz gibt es ja nur 8 Möglichkeiten... Ja und? Es reichen doch schon 3 matches... Habe hier eine Worltiste gefunden, die ganzen würter in Tri-Gramme aufgesplittet sort und uniq angewandt und habe bei dem vorstehenden localpart 8 Miese bekommen. jvy, vyq, yqf, qfu, fuw, uwz, wzy und zyz habe ich kein einziges mal in 5.000 deutschen Wöertern gefunden. Gt. 8 Punkte und wech. Wobei ich glaube dass sich für fwu und uwz mind. ein Kandidat finden wird... Achtung:Es sind NUR 417 Tri-Gramme. Verstehe ich nicht. -- Mit freundlichen Gruessen Bjoern Schmidt -- Haeufig gestellte Fragen und Antworten (FAQ): http://www.de.debian.org/debian-user-german-FAQ/ Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED] mit dem Subject unsubscribe. Probleme? Mail an [EMAIL PROTECTED] (engl)
Re: Bayes fr bizzare E-Mail-Adressen ?
Michelle Konzack wrote: Ähm, bei jvyqfuwzyz gibt es ja nur 8 Möglichkeiten... Habe hier eine Worltiste gefunden, die ganzen würter in Wortlistenvergleiche mit Wortern aus der dt. Sprache sind hier ineffizient. Ich würde mit einer Wortliste vergleichen in der absolut unmögliche Tridingsda drin stehen. Die muß man natürlich manuell mühsam aufbauen, dürfte dann aber relativ kurz ausfallen. -- Mit freundlichen Gruessen Bjoern Schmidt -- Haeufig gestellte Fragen und Antworten (FAQ): http://www.de.debian.org/debian-user-german-FAQ/ Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED] mit dem Subject unsubscribe. Probleme? Mail an [EMAIL PROTECTED] (engl)
Re: Bayes fr bizzare E-Mail-Adressen ?
Michelle Konzack wrote: Aber über 7.000 E-Mailadressen in eine White-List ? Da wird man mir nem einfachen procmailfilter nicht mehr hinkommen. Um die zu verwalten brauchste dann ein C-Program oder so. Selbst 'perl' dürfte es nicht in einer angemessenen Zeit fertigbringen. Das würde nur gehen, wenn der Whitelist manager à la 'spamc' arbeiten würde, also als daemon. Kann man die whitelist vom spamd nicht in mysql halten? Dann ist das doch alles was Du brauchst. -- Mit freundlichen Gruessen Bjoern Schmidt -- Haeufig gestellte Fragen und Antworten (FAQ): http://www.de.debian.org/debian-user-german-FAQ/ Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED] mit dem Subject unsubscribe. Probleme? Mail an [EMAIL PROTECTED] (engl)
Re: Bayes fr bizzare E-Mail-Adressen ?
Michelle Konzack wrote: Achtung:Es sind NUR 417 Tri-Gramme. Verstehe ich nicht. 5.000 Wörter hören sich viel an, aber si könne aus den 417 Tri-Grammen zusammengesetz werden :-) Sprich, wenn man so nen Tri-Gramm-Checker sich bastelt und ein Deutsches Wörterbuch mit 100.000 Stichwörtern nimmt, werden das dann effektiv vieleicht 4000-5000 Tri-Gramme werden. Also eine Anzahl, die sich verwalten läßt... :-) Ich verstehs immer noch nicht. Warum 417? -- Mit freundlichen Gruessen Bjoern Schmidt -- Haeufig gestellte Fragen und Antworten (FAQ): http://www.de.debian.org/debian-user-german-FAQ/ Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED] mit dem Subject unsubscribe. Probleme? Mail an [EMAIL PROTECTED] (engl)
Re: Bayes fr bizzare E-Mail-Adressen ?
-BEGIN PGP SIGNED MESSAGE- Hash: SHA1 Björn Schmidt wrote: | Kann man die whitelist vom spamd nicht in mysql halten? Dann ist | das doch alles was Du brauchst. Hallo, Björn! Das ist ja echt eine prima Idee, hätte ich ja auch drauf kommen können. Zur Zeit verwende ich ein Python-Script, welches die Adressen in einer PostgreSQL Datenbank hält und dann mit einem Query nachfragt. Sollte ich vielleicht wirklich noch einen Client scheiben und das Skript mit einem Netzwerk-Deamon versehen, sollte nicht schwer werden. Hab ich die Tage mal wieder was zu tun :-) Noch jemand interesse an sowas? Cheers, Jan - -- GPG-KeyID: 82201FC4 Available at my public keyserver www.gpg-keyserver.de -BEGIN PGP SIGNATURE- Version: GnuPG v1.2.4 (MingW32) Comment: Using GnuPG with Mozilla - http://enigmail.mozdev.org iD8DBQFBRIU8vvmCkIIgH8QRAr2FAJ0a+vzWOokpZ40NXbUfkiMWUmUBDgCgo9w4 UK03aoHUnBTPbe+fHBpZCkY= =/JHV -END PGP SIGNATURE- -- Haeufig gestellte Fragen und Antworten (FAQ): http://www.de.debian.org/debian-user-german-FAQ/ Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED] mit dem Subject unsubscribe. Probleme? Mail an [EMAIL PROTECTED] (engl)
Re: Bayes fr bizzare E-Mail-Adressen ?
Michelle Konzack wrote: Weil bei den 5000 Wörtern die ich in Tri-Gramme zerlegt habe, nur 417 rausgekommen sind... die anderen waren alle doppelt. Ach so ..., sind das wirklich nur so wenig? Das wäre gut, denn es würde die Wahrscheinlichkeit erhöhen unerwünschte Trigramme zu erkennen. Sind die 5000 Wörter aus dem Umgangssprachlichen oder sind es Namen? Letzteres wäre etwas sinnvoller... Einen localpart in trigramme zerlegen sind Sekundenbruchteile... Dann brauchste nur die Tri-Gramme in der Datenbank suchen. Allerdings sollte das nicht nach gefundenen Tri-Grammen gescort werden sondern nach Prozent. Der mail-Header würde dann ungefähr so aussehen: X-Email-Tri-Gramm-Score: 4 of 7 found, 57% Ich würde die Scorerate nicht linear ansteigen lassen, denn lange Worte mit 50% Trigammen sind stark spamwahrscheinlicher als kurze Worte mit 50% (bei Deiner anteiligen Scoreberechnung). -- Mit freundlichen Gruessen Bjoern Schmidt -- Haeufig gestellte Fragen und Antworten (FAQ): http://www.de.debian.org/debian-user-german-FAQ/ Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED] mit dem Subject unsubscribe. Probleme? Mail an [EMAIL PROTECTED] (engl)