Re: Spammails von Spamarchive.org

Daniel Leidert Mon, 31 May 2004 16:22:50 -0700

Am Mo, den 31.05.2004 schrieb Joerg Rieger um 23:22:
> On Mon, May 31, 2004 at 11:05:39PM +0200, Daniel Leidert wrote:
> > Am Mo, den 31.05.2004 schrieb Jakob Lell um 21:33:
> > > On Mon, May 31, 2004 at 07:45:18PM +0200, Thomas Letzner wrote:
> > > > 
> > > > Hab mal ne triviale Frage und zwar soll mein Spamassassin mit SA-Learn seine
> > > > Trefferquote zu erh�hen. Dazu habe ich ein wenig gegoogelt und bin dabei auf
> > > > www.spamarchive.org gesto�en, nun habe ich dort heute Nachmittag diverse
> > > > *.gz Archive gesaugt (insgesamt ~950 MB) 
> > > 
> > > Hallo,
> > > 950 Mb komprimierte Mails sind entpackt einige Gigabyte. Das ist f�r
> > > diesen Zweck viel zu viel. Es w�rde vermutlich Tage dauern, sie alle
> > > mit sa-learn einzulesen. F�r diesen Zweck reichen einige tausend Mails
> > > v�llig aus.
> > 
> > IMHO ist auch das f�r den Bayes-Filter unn�tiger Overkill, wenn
> > zus�tzlich Bogofilter l�uft. Razor, Pyzor und DCC helfen, altbekannten
> > Spam auszusortieren. Werden dann noch passende Config-Variablen f�r SA
> > und Bogofilter zum Selbstlernen gesetzt, funktioniert das nach meiner
> > Erfahrung hervorragend.
> 
> L�uft IMHO auch etwas dem Sinn des Bayes Ansatz entgegen.


Es ist nach meiner Meinung nicht unbedingt sinnvoll, altbekannten Spam
h�ndisch an SA oder Bogofilter weiterzureichen. Ein SA mit Pyzor/Razor
und DCC funktioniert sehr gut. Man kann sich in diesem Fall ein Skript
schreiben, dass die mithilfe von Bogofilter/SA(mit Razor/Pyzor/DCC)
aussortierten Mails zus�tzlich an SA/Bogofilter weiterreicht (falls die
Bewertung noch nicht zum automatischen Lernen ausreicht).

>  Denn es soll 
> ja erkannt werden, welche Mails f�r dich pers�nlich ham/spam sind. Z.B. 
> k�nnte f�r einen selbst der monatliche Newsletter eines Freemail 
> Dienstes interessant sein, f�r jemand anderen ist die gleiche Mail 
> jedoch spam.

IMHO ungl�cklich gew�hltes Beispiel. Nur wenn ich den Newsletter lesen
will, habe ich ihn auch abonniert. Und dann werde ich diese Mails vor SA
oder Bogofilter ausfiltern. �hnlich praktiziere ich das bei
Mailinglisten. Die meisten nutzen schon SA auf dem Listenserver. Das
muss ich dann nicht auch noch lokal machen und mein System belasten.
Solche Sachen kann man vorher herausfiltern (u.U. auf die SA-Header).
Das schont den Bayes-Filter und die Systemresourcen. Zus�tzlich w�rde
das Durchleiten aller E-Mails durch den Bayes-Filter die Effektivit�t
des Filters nach meiner Meinung herabsetzen. Ansonsten aber o.k. Da hat
jeder seine eigenen Vorlieben und Strategien. Ich habe Bogofilter einen
Tag angelernt und seit dem lernt er selbst�ndig. SA bekommt gerade mal
noch 1 von vielleicht 200-300 Spam-Mails zu Gesicht und filtert diese
mithilfe von Razor/Pyzor/DCC sehr zuverl�ssig. Per Skript wird
Bogofilter einmal t�glich mit diesen Mails bekannt gemacht und kennt sie
dann am n�chsten Tag. Fast alle von Bogofilter aussortierten Spam-Mails
kommen auf eine Gesamtbewertung (spamicity) von 1.0. 

> Auch sollte sich die Anzahl der ham und spam mails nicht zu stark 
> unterscheiden. Wenn du jetzt 1 GB spam mails hast und nur z.B. 100 MB 
> ham mails, kann es gut sein, dass die spam Erkennung zu scharf 
> verl�uft und so ham mails als spam klassifiziert werden.

Das kommt IMO darauf an, wie sich Ham und Spam zusammensetzen. Wer fast
nur deutschsprachigen E-Mail-Verkehr pflegt, dem kann das Verh�ltnis
zwischen Spam und Ham mehr oder weniger egal sein, da die Spam-Mails
fast ausschlie�lich englischsprachig sind. Die Gefahr von
false-positives ist in diesem Fall sehr gering.

MfG Daniel

signature.asc
Description: Dies ist ein digital signierter Nachrichtenteil

Re: Spammails von Spamarchive.org

Antwort per Email an