Ronny Haryanto wrote:
dia tidak perlu mengerti apa2 tentang email, jadi dia tidak membedakan
mana header mana isi, dia tidak tahu mana pengirim mana penerima,
pokoknya apapun yg ada di emailnya dipake utk membangun databasenya.
Kelebihannya menggunakan Bayesian classification ini adalah sistemnya
tidak perlu diconfigure dg pattern2 baru, tapi dia bisa belajar
sendiri berdasarkan apa yg kita latih. Kekurangannya ya itu, kita
mesti rajin melatih. Kalo saya biasanya email yg lolos dr bayesian
saya pindahkan secara manual ke folder "uncaught", trus saya jalankan
sa-learn secara periodik utk membaca isi uncaught itu utk melatih.
(Atau mungkin ada email client yg otomatis bisa memanggil sa-learn
atau equivalentnya utk menandai spam). Jadi sistemnya bisa belajar
mencari sendiri pattern2nya, gak perlu kita define sendiri pattern2nya
seperti apa.

Jangan lupa utk melatih jgn cuma spam aja, tapi ditrain dg ham juga,
supaya sistemnya juga tau mana yg bukan spam. Tingkat akurasi
klasifikasinya semakin baik kalo data yg dipake utk trainingnya juga
semakin banyak dan akurat.

Cara kerja klasifikasi Bayesian lebih kompleks dari itu. Tapi intinya

IMHO, sebenarnya kalo dipikir2, nggak perlu dengan cara manual, karena seingat saya ada opsi bayes_auto_learn_threshold_spam dan bayes_auto_learn_threshold_ham di file misc_10.cf (untuk SA 3.1.x), atau di local.cf (3.0.x , kalo nggak salah). Ini bisa digunakan untuk melatih bayes secara otomatis untuk setiap email yang diperiksa dengan memberikan nilai batas tertentu, mana yang akan dianggap sebagai spam dan mana yang ham.

--
- Cygnus -

Send instant messages to your online friends http://asia.messenger.yahoo.com
--
FAQ milis di http://wiki.linux.or.id/FAQ_milis_tanya-jawab
Unsubscribe: kirim email ke [EMAIL PROTECTED]
Arsip dan info milis selengkapnya di http://linux.or.id/milis

Kirim email ke