* Yves Rutschle <[EMAIL PROTECTED]> [2003-06-12 23:43] :
> On Thu, Jun 12, 2003 at 08:03:01PM +0200, Fr�d�ric Bothamy wrote:
> > > Il faudrait cr�er une liste debian-user-french-sms :-)
> > 
> > Ou une r�gle procmail pour ne plus polluer les BAL. Un peu radical, mais
> > bon ...
> 
> Tu as �a? �a m'interesserait assez, vu que de toute fa�on je
> les lis pas, et l'�crire moi-m�me ne me parait pas simple
> (il doit falloir des heuristiques).

Euh, non, c'�tait une question � laquelle j'avais malencontreusement
oubli� le point d'interrogation finale.

Quoique qu'en y repensant, ce devrait �tre faisable si l'on conna�t �
l'avance la langue du message (le fran�ais normalement, pour les
messages de debian-user-french), que l'on arrive � d�terminer le nombre
de mots incorrects du message (avec ispell ou aspell, ce devrait �tre
faisable) et que l'on �tablisse un ratio erreurs/nombre de mots total
minimum (un dictionnaire personnel pour les noms propres comme Debian,
sid, etc. serait alors bien utile).

Ce n'est pas trivial, mais pas si difficile que cela � faire.

Par exemple, sur le petit paragraphe de 7 lignes ci-dessus, les valeurs
sont :

$ ispell -l mon_paragraphe
debian-user-french
ispell
aspell
Debian
sid
$ wc -w mon_paragraphe
71
$

Soit, 5/71~=7%. Par contre, cette m�thode a d'autres inconv�nients :
- si la personne cite en int�gralit� un message bien �crit, elle aura
automatiquement un bonus (ou il faudrait commencer par enlever les
lignes de citation),
- les messages tr�s courts peuvent parfois avoir un ratio d�favorable et
�tre pourtant corrects (� l'extr�me, une r�ponse avec seulement un nom
de paquet Debian, par exemple).

J'en oublie certainement d'autres. Mais, bon, c'est une premi�re
approche.

Fred

-- 
LA FAQ d-u-f ? http://savannah.nongnu.org/download/debfr-faq/html/

Répondre à