Ronny Haryanto wrote:
dia tidak perlu mengerti apa2 tentang email, jadi dia tidak membedakan
mana header mana isi, dia tidak tahu mana pengirim mana penerima,
pokoknya apapun yg ada di emailnya dipake utk membangun databasenya.
Kelebihannya menggunakan Bayesian classification ini adalah sistemnya
tidak perlu diconfigure dg pattern2 baru, tapi dia bisa belajar
sendiri berdasarkan apa yg kita latih. Kekurangannya ya itu, kita
mesti rajin melatih. Kalo saya biasanya email yg lolos dr bayesian
saya pindahkan secara manual ke folder "uncaught", trus saya jalankan
sa-learn secara periodik utk membaca isi uncaught itu utk melatih.
(Atau mungkin ada email client yg otomatis bisa memanggil sa-learn
atau equivalentnya utk menandai spam). Jadi sistemnya bisa belajar
mencari sendiri pattern2nya, gak perlu kita define sendiri pattern2nya
seperti apa.
Jangan lupa utk melatih jgn cuma spam aja, tapi ditrain dg ham juga,
supaya sistemnya juga tau mana yg bukan spam. Tingkat akurasi
klasifikasinya semakin baik kalo data yg dipake utk trainingnya juga
semakin banyak dan akurat.
Cara kerja klasifikasi Bayesian lebih kompleks dari itu. Tapi intinya
IMHO, sebenarnya kalo dipikir2, nggak perlu dengan cara manual, karena
seingat saya ada opsi bayes_auto_learn_threshold_spam dan
bayes_auto_learn_threshold_ham di file misc_10.cf (untuk SA 3.1.x), atau
di local.cf (3.0.x , kalo nggak salah). Ini bisa digunakan untuk melatih
bayes secara otomatis untuk setiap email yang diperiksa dengan
memberikan nilai batas tertentu, mana yang akan dianggap sebagai spam
dan mana yang ham.
--
- Cygnus -
Send instant messages to your online friends http://asia.messenger.yahoo.com
--
FAQ milis di http://wiki.linux.or.id/FAQ_milis_tanya-jawab
Unsubscribe: kirim email ke [EMAIL PROTECTED]
Arsip dan info milis selengkapnya di http://linux.or.id/milis