Re: Spammails von Spamarchive.org

Joerg Rieger Mon, 31 May 2004 14:23:01 -0700

On Mon, May 31, 2004 at 11:05:39PM +0200, Daniel Leidert wrote:
> Am Mo, den 31.05.2004 schrieb Jakob Lell um 21:33:
> > On Mon, May 31, 2004 at 07:45:18PM +0200, Thomas Letzner wrote:
> > > 
> > > Hab mal ne triviale Frage und zwar soll mein Spamassassin mit SA-Learn seine
> > > Trefferquote zu erh�hen. Dazu habe ich ein wenig gegoogelt und bin dabei auf
> > > www.spamarchive.org gesto�en, nun habe ich dort heute Nachmittag diverse
> > > *.gz Archive gesaugt (insgesamt ~950 MB) 
> > 
> > Hallo,
> > 950 Mb komprimierte Mails sind entpackt einige Gigabyte. Das ist f�r
> > diesen Zweck viel zu viel. Es w�rde vermutlich Tage dauern, sie alle
> > mit sa-learn einzulesen. F�r diesen Zweck reichen einige tausend Mails
> > v�llig aus.
> 
> IMHO ist auch das f�r den Bayes-Filter unn�tiger Overkill, wenn
> zus�tzlich Bogofilter l�uft. Razor, Pyzor und DCC helfen, altbekannten
> Spam auszusortieren. Werden dann noch passende Config-Variablen f�r SA
> und Bogofilter zum Selbstlernen gesetzt, funktioniert das nach meiner
> Erfahrung hervorragend.


L�uft IMHO auch etwas dem Sinn des Bayes Ansatz entgegen. Denn es soll 
ja erkannt werden, welche Mails f�r dich pers�nlich ham/spam sind. Z.B. 
k�nnte f�r einen selbst der monatliche Newsletter eines Freemail 
Dienstes interessant sein, f�r jemand anderen ist die gleiche Mail 
jedoch spam.

Auch sollte sich die Anzahl der ham und spam mails nicht zu stark 
unterscheiden. Wenn du jetzt 1 GB spam mails hast und nur z.B. 100 MB 
ham mails, kann es gut sein, dass die spam Erkennung zu scharf 
verl�uft und so ham mails als spam klassifiziert werden.


-- 


-- 
Haeufig gestellte Fragen und Antworten (FAQ): 
http://www.de.debian.org/debian-user-german-FAQ/

Zum AUSTRAGEN schicken Sie eine Mail an [EMAIL PROTECTED]
mit dem Subject "unsubscribe". Probleme? Mail an [EMAIL PROTECTED] (engl)

Re: Spammails von Spamarchive.org

Antwort per Email an