Re: (linux-br) Resultados obtidos com DSPAM

Thiago Macieira Mon, 13 Aug 2007 07:27:04 -0700

-----BEGIN PGP SIGNED MESSAGE-----
Hash: SHA1

Valcir Borges wrote:
>>O segundo nível é um DSpam...
>
>Boa noite pessoal,
>
>Eu estava buscando a tempos uma solução mais eficiente sobre antispam,
> já que o spamassassin não é tão eficiente assim (cheguei a essa
> conclusão depois de compilar e habilitar de tudo nele e não resolver as
> minhas necessidades). Tão logo o Tiago mensionou o uso do dspam, testei
> e me surpreendi: até agora o seu acerto tanto para spam como ham foi
> simplesmente 100%. Garimpando várias documentações sobre o assunto,
> descobri que o seu mecanismo de deteção é muito melhor que o
> spamassassin.


Aproveitando:

o DSpam é muito bom, mas requer bastante treinamento e constante. Rodá-lo 
sem treinar como se faz com o SpamAssassin simplesmente não dá resultado 
certo nenhum.

O que acontece é que ele vai tentar aprender com os primeiros emails que 
você receber. Esses sairão quase todos errados. Mas com o tempo a 
performance sobe. Por outro lado, treinar inicialmente pode dar 
resultados errados para emails que não fazem parte do corpo de 
treinamento. 

Foi o caso aqui no meu servidor: eu treinei o servidor com mensagens 
minhas, porém o DSpam sempre achava que os emails do Bradesco para o meu 
pai eram spam (eu não tenho conta no Bradesco, então minhas caixas 
postais não continham nenhuma amostra do banco).

No meu caso, o dspam está rodando para todos os usuários (desde 1/1/06):
# dspam_stats -H
all:
                TS True Positives:          50338
                TI True Negatives:         413837
                IM False Positives:            92
                SM False Negatives:          4202
                SC Spam Corpusfed:           7599
                IC Innocent Corpusfed:       4458
                TL Training Left:               0
                SR Spam Catch Rate:        92.30%
                IR Innocent Catch Rate:    99.98%
                OR Overall Rate/Accuracy:  99.08%

Veja que o SR está bem abaixo dos 99% -- isto é, em cada 25 spams, 2 
passam para a Inbox. Como eu recebo uns 2000 spams por mês, são 40 que 
vão parar na Inbox. Do outro lado, de cada 5000 emails verdadeiros, 
apenas um vai parar no Junk E-Mail.

Na média, menos de 1 em cada 100 emails vai parar no lugar errado.

Note também que as estatísticas incluem o período de treinamento, em que a 
taxa de erro era bem mais alta. Eu precisaria comparar com os valores de 
um mês atrás para dar o resultado do "regime permanente" (se alguém 
quiser me lembrar daqui um mês, fique à vontade).

Outras dicas:
- - o DSpam vai aprender as marcas anti-spam de seus upstream também. Isso 
pode ser bom ou ruim. Em geral, sugiro removê-las antes de o email ser 
tratado pelo DSpam, para evitar que spammers enviem email com 
X-Spam-Flag: NO, por exemplo.

- - a maior parte dos meus spams têm como destino linux-br-owner. Aí você vê 
a diferença que faz um servidor de email bem configurado para barrar spam 
antes de chegar no DSpam: como a lista é pública, é muito difícil colocar 
regras de barragem. (Acho que o servidor bazar2 não tem nenhuma regra RBL 
ou coisa assim)

- -- 
  Thiago Macieira  -  thiago (AT) macieira.info - thiago (AT) kde.org
    PGP/GPG: 0x6EF45358; fingerprint:
    E067 918B B660 DBD1 105C  966C 33F5 F005 6EF4 5358
-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.4.7 (GNU/Linux)

iD8DBQFGu1NdM/XwBW70U1gRAiJsAKCh/1Wc3+eeAtymCGCV9Ibzw+2/VACdHwKn
lWAzkNtFop570GNnRn12bGo=
=tgOP
-----END PGP SIGNATURE-----
---------------------------------------------------------------------------
Esta lista é patrocinada pela Conectiva S.A. Visite http://www.conectiva.com.br

Arquivo: http://bazar2.conectiva.com.br/mailman/listinfo/linux-br
Regras de utilização da lista: http://linux-br.conectiva.com.br
FAQ: http://www.zago.eti.br/menu.html

Re: (linux-br) Resultados obtidos com DSPAM

Responder a