On Wed, Sep 20, 2006 at 11:50:42AM +0700, Aryaseta wrote:
> Saya punya scenario begini, berhubung user masih sering mendapatkan email
> spam.
> 
> Saya buat Account [EMAIL PROTECTED] yang fungsinya menampung forward email 
> spam
> dari user mailserver saya.
> 
> Misalkan user mailserver saya namanya  [EMAIL PROTECTED] mendapatkan email 
> spam
> dari [EMAIL PROTECTED], trus email tersebut di forward ke [EMAIL PROTECTED]
> 
> Trus saya jalankan 
> # sa-learn --spam /home/vpopmail/domains/aku.com/spam/Maildir/cur
> # sa-learn --spam /home/vpopmail/domains/aku.com/spam/Maildir/new
> 
> Kira2 yang didetect sebagai spam account yg mana? 
> account [EMAIL PROTECTED] atau account pengirim email spam yg diforward tadi
> ([EMAIL PROTECTED]) ?

Cara kerja klasifikasi Bayesian lebih kompleks dari itu. Tapi intinya
dia tidak perlu mengerti apa2 tentang email, jadi dia tidak membedakan
mana header mana isi, dia tidak tahu mana pengirim mana penerima,
pokoknya apapun yg ada di emailnya dipake utk membangun databasenya.
Kelebihannya menggunakan Bayesian classification ini adalah sistemnya
tidak perlu diconfigure dg pattern2 baru, tapi dia bisa belajar
sendiri berdasarkan apa yg kita latih. Kekurangannya ya itu, kita
mesti rajin melatih. Kalo saya biasanya email yg lolos dr bayesian
saya pindahkan secara manual ke folder "uncaught", trus saya jalankan
sa-learn secara periodik utk membaca isi uncaught itu utk melatih.
(Atau mungkin ada email client yg otomatis bisa memanggil sa-learn
atau equivalentnya utk menandai spam). Jadi sistemnya bisa belajar
mencari sendiri pattern2nya, gak perlu kita define sendiri pattern2nya
seperti apa.

Jangan lupa utk melatih jgn cuma spam aja, tapi ditrain dg ham juga,
supaya sistemnya juga tau mana yg bukan spam. Tingkat akurasi
klasifikasinya semakin baik kalo data yg dipake utk trainingnya juga
semakin banyak dan akurat.

Menjawab pertanyaan anda, ya belum tentu email yg mana yg akan
dianggap spam. Tergantung database trainingnya seperti apa, kalo
kurang dilatih ya akurasinya rendah. Sekali lagi, waktu sistemnya
melakukan klasifikasi (ini spam atau bukan) dia tidak perlu tau bahwa
data yg sedang dia klasifikasi itu adalah sebuah email, jadi dia tidak
tau menahu soal pengirim, penerima, MIME, dsb. pokoknya semuanya data.

Ronny

Attachment: signature.asc
Description: Digital signature

Kirim email ke