On Wed, Dec 31, 2003 at 03:08:11PM +0100, Vincent Lefevre wrote:
> > Enfin, je pr�cise aussi qu'il faut aussi apprendre (ou le laisser
> > apprendre) les hams, aka les mails l�gitimes.
> Que signifie alors le champs autolearn dans "X-Spam-Status:"? Pour
> la plupart des mails, il est � "no". Sinon, il est � "ham" ou �
> "spam" suivant le type du mail. 

Ce que �a signifie naturellement : j'ai appris & enregistr� tout seul comme
un grand que ce mail �tait un spam ou un ham pour la base bayesienne (ou
j'ai rien appris du tout, apres tout le doute est permis).

> Je suppose qu'il faut seulement lui faire apprendre les messages pour 
> lesquels autolearn=no, mais que spamassassin peut aussi se d�brouiller 
> sans (mais c'est moins bien).

Pour utiliser tout le filtre bayesian, il y a un apprentissage.
Pour un geek abonn� a pleins de ML et qui est recoit pleins de spam (ce qui 
est probablement ton cas), �a va assez vite l'auto-apprentissage.
Sinon (ou si le geek est press�) il faut utiliser sa-learn pour apprendre
au filtre bayesian comment distinguer les mails.
Si je me souviens bien, Bayes est utilis� des le moment ou plus de 1000
spams et plus de 1000 hams ont �t� enregistr� dans la base, soit par
auto-apprentissage, soit par apprentissage manuel via sa-learn. Savoir s'il
est utilis� c'est facile : une score est donn� a tous les mails trait�s
par SpamAssassin.

Lui faire apprendre les messages non-appris automatiquement (et plus encore, 
corriger les erreurs) permet au filtre bayesian d'augmenter un peu son 
efficacit�, mais prends du temps. Car plus il y a de donn�es (correctes), 
plus fiable sera le diagnostic. Une fois l'apprentissage initial r�alis�, 
continuer d'am�liorer le filtrage bayesian me semble un peu une perte de 
temps (me semble juste, car j'ai de bonnes raisons de penser que �a pourrait 
quand m�me �tre b�n�ficiaire dans certains cas). Moins d'un utilisateur sur 
100 s'y aventure probablement d'ailleurs. En tout cas je connais un site de 
plus de 1100 utilisateurs avec un SA install� en system-wide ou je suis 
quasi-sur que personne ne le fait. 

-- 
       Maxime Ritter         |    French Computer Geek
Mail : [EMAIL PROTECTED] | http://maxime.ritter.eu.org 

Répondre à