Am Mo, den 31.05.2004 schrieb Joerg Rieger um 23:22: > On Mon, May 31, 2004 at 11:05:39PM +0200, Daniel Leidert wrote: > > Am Mo, den 31.05.2004 schrieb Jakob Lell um 21:33: > > > On Mon, May 31, 2004 at 07:45:18PM +0200, Thomas Letzner wrote: > > > > > > > > Hab mal ne triviale Frage und zwar soll mein Spamassassin mit SA-Learn seine > > > > Trefferquote zu erh�hen. Dazu habe ich ein wenig gegoogelt und bin dabei auf > > > > www.spamarchive.org gesto�en, nun habe ich dort heute Nachmittag diverse > > > > *.gz Archive gesaugt (insgesamt ~950 MB) > > > > > > Hallo, > > > 950 Mb komprimierte Mails sind entpackt einige Gigabyte. Das ist f�r > > > diesen Zweck viel zu viel. Es w�rde vermutlich Tage dauern, sie alle > > > mit sa-learn einzulesen. F�r diesen Zweck reichen einige tausend Mails > > > v�llig aus. > > > > IMHO ist auch das f�r den Bayes-Filter unn�tiger Overkill, wenn > > zus�tzlich Bogofilter l�uft. Razor, Pyzor und DCC helfen, altbekannten > > Spam auszusortieren. Werden dann noch passende Config-Variablen f�r SA > > und Bogofilter zum Selbstlernen gesetzt, funktioniert das nach meiner > > Erfahrung hervorragend. > > L�uft IMHO auch etwas dem Sinn des Bayes Ansatz entgegen.
Es ist nach meiner Meinung nicht unbedingt sinnvoll, altbekannten Spam h�ndisch an SA oder Bogofilter weiterzureichen. Ein SA mit Pyzor/Razor und DCC funktioniert sehr gut. Man kann sich in diesem Fall ein Skript schreiben, dass die mithilfe von Bogofilter/SA(mit Razor/Pyzor/DCC) aussortierten Mails zus�tzlich an SA/Bogofilter weiterreicht (falls die Bewertung noch nicht zum automatischen Lernen ausreicht). > Denn es soll > ja erkannt werden, welche Mails f�r dich pers�nlich ham/spam sind. Z.B. > k�nnte f�r einen selbst der monatliche Newsletter eines Freemail > Dienstes interessant sein, f�r jemand anderen ist die gleiche Mail > jedoch spam. IMHO ungl�cklich gew�hltes Beispiel. Nur wenn ich den Newsletter lesen will, habe ich ihn auch abonniert. Und dann werde ich diese Mails vor SA oder Bogofilter ausfiltern. �hnlich praktiziere ich das bei Mailinglisten. Die meisten nutzen schon SA auf dem Listenserver. Das muss ich dann nicht auch noch lokal machen und mein System belasten. Solche Sachen kann man vorher herausfiltern (u.U. auf die SA-Header). Das schont den Bayes-Filter und die Systemresourcen. Zus�tzlich w�rde das Durchleiten aller E-Mails durch den Bayes-Filter die Effektivit�t des Filters nach meiner Meinung herabsetzen. Ansonsten aber o.k. Da hat jeder seine eigenen Vorlieben und Strategien. Ich habe Bogofilter einen Tag angelernt und seit dem lernt er selbst�ndig. SA bekommt gerade mal noch 1 von vielleicht 200-300 Spam-Mails zu Gesicht und filtert diese mithilfe von Razor/Pyzor/DCC sehr zuverl�ssig. Per Skript wird Bogofilter einmal t�glich mit diesen Mails bekannt gemacht und kennt sie dann am n�chsten Tag. Fast alle von Bogofilter aussortierten Spam-Mails kommen auf eine Gesamtbewertung (spamicity) von 1.0. > Auch sollte sich die Anzahl der ham und spam mails nicht zu stark > unterscheiden. Wenn du jetzt 1 GB spam mails hast und nur z.B. 100 MB > ham mails, kann es gut sein, dass die spam Erkennung zu scharf > verl�uft und so ham mails als spam klassifiziert werden. Das kommt IMO darauf an, wie sich Ham und Spam zusammensetzen. Wer fast nur deutschsprachigen E-Mail-Verkehr pflegt, dem kann das Verh�ltnis zwischen Spam und Ham mehr oder weniger egal sein, da die Spam-Mails fast ausschlie�lich englischsprachig sind. Die Gefahr von false-positives ist in diesem Fall sehr gering. MfG Daniel
signature.asc
Description: Dies ist ein digital signierter Nachrichtenteil

