Mutt - Treinar o bogofilter

2008-08-06 Por tôpico Caio Abreu Ferreira
Lista

Por acaso alguém teria algum texto explicando como treinar o
bogofilter? Estou utilizando o trio mutt+procmail+bogofilter e
infelizmente alguns e-mail passaram. Queria mover esses spams que
passaram para uma pasta e indicar para o bogofilter que esses e-mails
são spam.

Obrigado


 .''`.   Caio Abreu Ferreira
: :'  :  [EMAIL PROTECTED]
`. `'`   Debian User
  `- 


-- 
To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of unsubscribe. Trouble? Contact [EMAIL PROTECTED]



bogofilter

2003-12-20 Por tôpico caio ferreira
All

Por acaso alguem aqui da lista utiliza o trio 
procmail+fetchmail+bogofilter ?!
Eu no momento estou utilizando em vez de bogofilter estou utilizadno o
spamassassin, mas estou querendo testar o bogofiler.

-- 

[ ]'s
 
  ***.''`.
* Caio A. Ferreira   *  : :'  :
* GNU/Linux Debian   *  `. `'`
  *** `-
Gnupg ID 0x01186BE1
Key fingerprint =3D F17E 75C6 CE00 0E09 F63B  71B0 A0D2 FAD9 0118 6BE1


Deus está nos detalhes

--Mies Van Der Rohe



Re: bogofilter

2003-12-20 Por tôpico Pablo Lorenzzoni
Olah!

Eu uso o hepteto
fetchmail+bincimap+procmail+bogofilter+postfix+mutt+mairix.

Veja bem, o algoritmo usado pela opcao bayesiana do SpamAssassin eh
quase igual ao do bogofilter. As diferencas ficam no armazenamento e a
performace (que saum mais eficientes no bogofilter, que usa BerkeleyDB
otimizado e eh escrito em C)

Se vc naum estiver rodando um servidor com grandes requisitos de
performance, ou naum tiver espaco limitado em disco, as diferencas entre
bogofilter e spamassassin com filtro bayesiano saum despreziveis. O
bogofilter tem outras opcoes de algoritmos, enquanto o spamassassin
utiliza o mesmo algoritmo classico, entaum vc pode preferir o bogofilter
pela variedade de opcoes, se isso lhe interessar.

Qqer coisa, pvt-me.

[]s

Pablo

Em Sáb, 20 Dez 2003, caio ferreira escreveu:

|   All
| 
|   Por acaso alguem aqui da lista utiliza o trio 
procmail+fetchmail+bogofilter ?!
| Eu no momento estou utilizando em vez de bogofilter estou utilizadno o
| spamassassin, mas estou querendo testar o bogofiler.
| 
| -- 
| 
| [ ]'s
|  
|   ***.''`.
| * Caio A. Ferreira   *  : :'  :
| * GNU/Linux Debian   *  `. `'`
|   *** `-
| Gnupg ID 0x01186BE1
| Key fingerprint =3D F17E 75C6 CE00 0E09 F63B  71B0 A0D2 FAD9 0118 6BE1
| 
| 
| Deus está nos detalhes
| 
| --Mies Van Der Rohe
| 
| 
| --
| To UNSUBSCRIBE, email to [EMAIL PROTECTED]
| with a subject of unsubscribe. Trouble? Contact [EMAIL PROTECTED]
| 

-- 
Pablo Lorenzzoni (Spectra) [EMAIL PROTECTED]
GnuPG: 0x268A084D at pgp.mit.edu/keyring.debian.org
This message is protected by DoubleROT13 encryption
Attempting to decode it violates the DMCA/WIPO acts



Re: bogofilter

2003-12-20 Por tôpico Douglas A. Augusto
No dia 20/12/2003 às 15:24,
caio ferreira [EMAIL PROTECTED] escreveu:

   Por acaso alguem aqui da lista utiliza o trio 
 procmail+fetchmail+bogofilter ?!
 Eu no momento estou utilizando em vez de bogofilter estou utilizadno o
 spamassassin, mas estou querendo testar o bogofiler.

Não  uso o  trio,  mas o  duo fetchmail+bogofilter. O  bogofilter  é rápido  e
eficiente, muito mais preciso que o SpamAssassin.

Inclusive, se  vasculhar a  lista, certa  vez criei um  script para  treinar o
bogofilter  através das  regras  do  spamassassin, bastando  ter  uma base  de
e-mails  (podem ser  suas próprias  mensagens). Funciona da  seguinte maneira,
se  o  bogofilter classificar  erroneamente  uma  mensagem  (de acordo  com  o
spamassassin),  este é  re-treinado com  os dados  do e-mail  em questão. Este
procedimento já inicia o bogofilter com uma boa semente.


-- 
Douglas Augusto
   [Netiqueta]
§ Evitar escrever em maiúsculas, use *palavra* para o negrito e _palavra_ para
  sublinhar.



Re: bogofilter

2003-12-20 Por tôpico caio ferreira
On Sat, 20 Dec 2003 15:58:37 -0200
Douglas A. Augusto [EMAIL PROTECTED] wrote:

 Por acaso alguem aqui da lista utiliza o trio
 procmail+fetchmail+bogofilter ?!  Eu no momento estou utilizando em vez de
 bogofilter estou utilizadno o  spamassassin, mas estou querendo testar o
 bogofiler.
 
 Não  uso o  trio,  mas o  duo fetchmail+bogofilter. O  bogofilter  é rápido  e
 eficiente, muito mais preciso que o SpamAssassin.
 
 Inclusive, se  vasculhar a  lista, certa  vez criei um  script para  treinar o
 bogofilter  através das  regras  do  spamassassin, bastando  ter  uma base  de
 e-mails  (podem ser  suas próprias  mensagens). Funciona da  seguinte maneira,
 se  o  bogofilter classificar  erroneamente  uma  mensagem  (de acordo  com  o
 spamassassin),  este é  re-treinado com  os dados  do e-mail  em questão. Este
 procedimento já inicia o bogofilter com uma boa semente.

Antes de enviar a minha dúvida para a lista eu procurei no histórico da 
lista e
as únicas mensagens que eu encontrei, inclusive algumas mensagens suas, é sobre
a opção de se deletar as mensagens que contem spam diretamente no servidor e não
de pois que as mensagens foram baixadas.

-- 

[ ]'s
 
  ***.''`.
* Caio A. Ferreira   *  : :'  :
* GNU/Linux Debian   *  `. `'`
  *** `-
Gnupg ID 0x01186BE1
Key fingerprint =3D F17E 75C6 CE00 0E09 F63B  71B0 A0D2 FAD9 0118 6BE1

Restaurante de sapos: `Garçom, não há uma mosca na minha sopa!'Restaurante de
sapos: `Garçom, não há uma mosca na minha sopa!'



Re: bogofilter

2003-12-20 Por tôpico Douglas A. Augusto
No dia 20/12/2003 às 18:58,
caio ferreira [EMAIL PROTECTED] escreveu:

   Antes de enviar a minha dúvida para a lista eu procurei no histórico da 
 lista e
 as únicas mensagens que eu encontrei, inclusive algumas mensagens suas, é 
 sobre
 a opção de se deletar as mensagens que contem spam diretamente no servidor e 
 não
 de pois que as mensagens foram baixadas.

Se te interessar, está aqui:

[OT] Aprendizado do Bogofilter com base no SpamAssassin: script
http://lists.debian.org/debian-user-portuguese/2003/debian-user-portuguese-200309/msg00843.html


-- 
Douglas Augusto
 [Netiqueta]
§ Cortar linhas no máximo na 80ª coluna.



Re: Bogofilter

2003-10-12 Por tôpico Douglas A. Augusto
No dia 10/10/2003 às 13:46,
jxz [EMAIL PROTECTED] escreveu:

 On Thu, Oct 09, 2003 at 09:54:40AM -0300, Douglas A. Augusto wrote:
 | Não  tem  como. Ando também  atrás  desta  funcionalidade. Nem popsneaker  
 nem
 | mailfilter. O ideal seria o popsneaker  se integrar ao bogofilter (ou 
 qualquer
 | outro  filtro externo),  passando  o  header (ou  talvez  mais algumas  
 poucas
 | linhas) para ser analisado externamente e  então decidir se a mensagem 
 deveria
 | ou não ser baixada. Se você fala C e tem tempo livre, pode tentar criar 
 esta
 | integração popsneaker-bogofilter.
 
 O bogofilter trabalha por analise de TODO o texto do email, por isso
 sempre é necessario o download da mensagem.

Não é  bem assim, o bogofilter  trabalha com qualquer fragmento  de e-mail, ou
melhor, qualquer fragmento de texto, tente:

echo abc | bogofilter -v

Vai te dizer se abc é considerado spam ou não, segundo sua base de de dados.

O  problema é  que geralmente  o bogofilter  é utilizado  em todo  o texto  de
e-mail, mas  isso é uma deficiência  dos softwares que baixam  diretamente o
e-mail, não do bogofilter.


-- 
Douglas Augusto



Re: Bogofilter

2003-10-12 Por tôpico jxz
On Sun, Oct 12, 2003 at 03:37:19AM -0200, Douglas A. Augusto wrote:
|  O bogofilter trabalha por analise de TODO o texto do email, por isso
|  sempre é necessario o download da mensagem.
| 
| Não é  bem assim, o bogofilter  trabalha com qualquer fragmento  de e-mail, ou
| melhor, qualquer fragmento de texto, tente:
| 
| echo abc | bogofilter -v
| Vai te dizer se abc é considerado spam ou não, segundo sua base de de dados.

Sim, voce nao precisa necessariamente de um texto no formato de uma
mensagem para que o bogofilter trabalhe. Mas o sentido que eu dei em
trabalhar é executar a tarefa :-)

| O  problema é  que geralmente  o bogofilter  é utilizado  em todo  o texto  de
| e-mail, mas  isso é uma deficiência  dos softwares que baixam  diretamente o
| e-mail, não do bogofilter.

O bogofilter, bem como qualquer outro filtro estatistico (spamprobe,
spambayes, bayes do SpamAssassin, ifile, etc) *precisa* da mensagem
completa. E isso nao é um problema, e sim uma solucao para um
problema.

É assim que esse tipo de filtro funciona. Para mais detalhes, leia
http://www.paulgraham.com/spam.html.

Abraços, e boa sorte filtrando spam!

-- 
[EMAIL PROTECTED]


pgp4LU9PwKxpX.pgp
Description: PGP signature


Re: Bogofilter

2003-10-12 Por tôpico Douglas A. Augusto
No dia 12/10/2003 às 04:28,
jxz [EMAIL PROTECTED] escreveu:

 O bogofilter, bem como qualquer outro filtro estatistico (spamprobe,
 spambayes, bayes do SpamAssassin, ifile, etc) *precisa* da mensagem
 completa. E isso nao é um problema, e sim uma solucao para um
 problema.

Não entendi  exatamente o que quis  dizer. Você pode passar qualquer  texto ao
filtro bayesiano,  a análise é  feita sobre  as palavras, independente  se ela
pertence ao e-mail ou a um texto de Shakespeare.

Olha o que acontece aqui:

echo oportunidade | bogofilter -v
X-Bogosity: Yes, tests=bogofilter, spamicity=0.994208, version=0.15.4

Naturalmente,  quanto mais  informação sobre  a mensagem  eletrônica, maior  a
fidelidade de classificação do filtro. Mas de  forma alguma o texto integral é
imprescindível para a análise.

 É assim que esse tipo de filtro funciona. Para mais detalhes, leia
 http://www.paulgraham.com/spam.html.

Basicamente  ele pega  a  incidência das  palavras  e compara  com  a base  de
dados. Se, de acordo  com uma fórmula particular, a soma  das palavras pesarem
para spam, o texto será declarado spam.


-- 
Douglas Augusto



Re: Bogofilter

2003-10-10 Por tôpico Pablo Lorenzzoni
Olah!

Naum. O Bogofilter funciona analisando **toda** a mensagem. Ele soh
podeira naum baixar as mensagens marcadas como spam se ele estivesse
funcionando no seu servidor. Aiyh ele poderia redirecionaar as mensagens
para uma outra pasta num servidor IMAP ou uma outra conta, ou ateh mesmo
para /dev/null... Mas do lado do cliente, naum tem como.

[]s

Pablo

Em Qui, 09 Out 2003, Marcelo Neres dos Santos escreveu:

| Pessoal,
| 
| estou utilizando o bogofilter+sylpheed-claws e queria saber se tem como
| o bogofilter não baixar as mensagem que eu marco como spam?! Ou seja,
| funcionar como o popsneaker só que sem eu ter que adicionar manualmente
| cada endereço ou subject que eu deseje que seja bloqueado.
| 
| Grato,
| Marcelo.
| 
| 
| --
| To UNSUBSCRIBE, email to [EMAIL PROTECTED]
| with a subject of unsubscribe. Trouble? Contact [EMAIL PROTECTED]
| 

-- 
Pablo Lorenzzoni (Spectra) [EMAIL PROTECTED]
GnuPG: 0x268A084D at pgp.mit.edu/keyring.debian.org
This message is protected by DoubleROT13 encryption
Attempting to decode it violates the DMCA/WIPO acts



Re: Bogofilter

2003-10-10 Por tôpico Pablo Lorenzzoni
Olah!

Passar somente os headers paa o bogofiler naum parece uma boa ideia...
Ele analisa tokens, e os headers naum tem muitos tokns diferents, digo,
em relacao spam/naum-spam.

Talvez funcione... mas naum parece uma boa ideia. O melhor de tudo eh um
servidor IMAP rodando bogofilter e separando os spams para uma pasta
separada (q vc nunca precisa ler).

[]s

Pablo

Em Qui, 09 Out 2003, Douglas A. Augusto escreveu:

| No dia 09/10/2003 às 09:44,
| Marcelo Neres dos Santos [EMAIL PROTECTED] escreveu:
| 
|  Pessoal,
|  
|  estou utilizando o bogofilter+sylpheed-claws e queria saber se tem como
|  o bogofilter não baixar as mensagem que eu marco como spam?! Ou seja,
|  funcionar como o popsneaker só que sem eu ter que adicionar manualmente
|  cada endereço ou subject que eu deseje que seja bloqueado.
| 
| Não  tem  como. Ando também  atrás  desta  funcionalidade. Nem popsneaker  nem
| mailfilter. O ideal seria o popsneaker  se integrar ao bogofilter (ou qualquer
| outro  filtro externo),  passando  o  header (ou  talvez  mais algumas  poucas
| linhas) para ser analisado externamente e  então decidir se a mensagem deveria
| ou não ser baixada. Se você fala C e tem tempo livre, pode tentar criar esta
| integração popsneaker-bogofilter.
| 
| 
| -- 
| Douglas Augusto
| 
| 
| --
| To UNSUBSCRIBE, email to [EMAIL PROTECTED]
| with a subject of unsubscribe. Trouble? Contact [EMAIL PROTECTED]
| 

-- 
Pablo Lorenzzoni (Spectra) [EMAIL PROTECTED]
GnuPG: 0x268A084D at pgp.mit.edu/keyring.debian.org
This message is protected by DoubleROT13 encryption
Attempting to decode it violates the DMCA/WIPO acts



Bogofilter

2003-10-09 Por tôpico Marcelo Neres dos Santos
Pessoal,

estou utilizando o bogofilter+sylpheed-claws e queria saber se tem como
o bogofilter não baixar as mensagem que eu marco como spam?! Ou seja,
funcionar como o popsneaker só que sem eu ter que adicionar manualmente
cada endereço ou subject que eu deseje que seja bloqueado.

Grato,
Marcelo.



Re: Bogofilter

2003-10-09 Por tôpico Douglas A. Augusto
No dia 09/10/2003 às 09:44,
Marcelo Neres dos Santos [EMAIL PROTECTED] escreveu:

 Pessoal,
 
 estou utilizando o bogofilter+sylpheed-claws e queria saber se tem como
 o bogofilter não baixar as mensagem que eu marco como spam?! Ou seja,
 funcionar como o popsneaker só que sem eu ter que adicionar manualmente
 cada endereço ou subject que eu deseje que seja bloqueado.

Não  tem  como. Ando também  atrás  desta  funcionalidade. Nem popsneaker  nem
mailfilter. O ideal seria o popsneaker  se integrar ao bogofilter (ou qualquer
outro  filtro externo),  passando  o  header (ou  talvez  mais algumas  poucas
linhas) para ser analisado externamente e  então decidir se a mensagem deveria
ou não ser baixada. Se você fala C e tem tempo livre, pode tentar criar esta
integração popsneaker-bogofilter.


-- 
Douglas Augusto



[OT] Aprendizado do Bogofilter com base no SpamAssassin: script

2003-09-15 Por tôpico Douglas A. Augusto
Leitores,

Estou fazendo uma experiência com o filtro de SPAM Bogofilter e, no intuito de
iniciá-lo automaticamente com uma boa base de conhecimento, desenvolvi um
script que é capaz de treiná-lo supervisionado pelo Spamassassin.
O treinamento trabalha sobre os erros somente (TOE), induzindo a uma base de
dados mais enxuta.

A grande vantagem é que após incorporar a técnica do Spamassassin, o
Bogofilter pode/deve ser refinado para os novos casos em que falhar, mantendo-o
sempre atualizado e mais preciso.

O arquivo de script está comentado e segue abaixo.


###
bogoassassin.sh
###

#!/bin/sh

# Treina a base do Bogofilter utilizando o conhecimento do Spamassassin, para
# uma dada mensagem.  Se o Bogofilter classificar incorretamente (sob a
# perspectiva do spamassassin), este será re-treinado para o caso onde falhou.
# Train On Error (TOE)

# O objetivo é aproveitar toda a experiência do Spamassasin e, então, apenas
# refinar a base de dados do Bogofilter ao decorrer do tempo. 

# Douglas Augusto ([EMAIL PROTECTED]), 15/Set/2003 - Sob GPL

# Uso: ./bogoassassin.sh arquivo-mensagem

# É recomendado o processamento em lote, tendo como base todas as mensagens
# previamente arquivadas:
# Ex.: for i in $(ls); do ./bogoassassin.sh $i; done
# (processa todas as mensagens do diretório atual)


# localização dos binários
BOGOFILTER=/usr/bin/bogofilter;
SPAMASSASSIN=/usr/bin/spamassassin;
SPAMASSASSINCLIENT=/usr/bin/spamc;

$BOGOFILTER  $*

# 0 = SPAM, 1 = NONSPAM
CLASS_BOGO=$?

# Classificação pelo SpamAssassin

# Caso utilize o spamd/spamc. Este método é recomendado para o processamento em
# lote, por ser mais veloz. É necerrário, entretanto, que o servidor 'spamd'
# esteja rodando.
$SPAMASSASSINCLIENT -c  $*  /dev/null

# Caso prefira o modo normal (mais lento)
#$SPAMASSASSIN -e  $*  /dev/null

# 0 = NONSPAM, 0 = SPAM
if [ $? = 0 ]; then # nao é SPAM, segundo o spamassassin

echo - NONSPAM [$*] (Spamassassin)
  
  if [ $CLASS_BOGO = 0 ]; then # o bogo acusou erroneamente SPAM
echo   SPAM [$*] (Bogofilter): Re-treinando!
# fazer a correção
$BOGOFILTER -n  $*
  else
echo   NONSPAM [$*] (Bogofilter): Ok!
  fi
else # é SPAM, segundo o spamassassin
echo - SPAM [$*] (Spamassassin)
  if [ $CLASS_BOGO != 0 ]; then # o bogo não acusou SPAM :(
echo   NONSPAM [$*] (Bogofilter): Re-treinando!
# fazer a correção
$BOGOFILTER -s  $*
  else
echo   SPAM [$*] (Bogofilter): Ok!
  fi
fi

###


-- 
Douglas Augusto