On Wed, Sep 20, 2006 at 11:50:42AM +0700, Aryaseta wrote: > Saya punya scenario begini, berhubung user masih sering mendapatkan email > spam. > > Saya buat Account [EMAIL PROTECTED] yang fungsinya menampung forward email > spam > dari user mailserver saya. > > Misalkan user mailserver saya namanya [EMAIL PROTECTED] mendapatkan email > spam > dari [EMAIL PROTECTED], trus email tersebut di forward ke [EMAIL PROTECTED] > > Trus saya jalankan > # sa-learn --spam /home/vpopmail/domains/aku.com/spam/Maildir/cur > # sa-learn --spam /home/vpopmail/domains/aku.com/spam/Maildir/new > > Kira2 yang didetect sebagai spam account yg mana? > account [EMAIL PROTECTED] atau account pengirim email spam yg diforward tadi > ([EMAIL PROTECTED]) ?
Cara kerja klasifikasi Bayesian lebih kompleks dari itu. Tapi intinya dia tidak perlu mengerti apa2 tentang email, jadi dia tidak membedakan mana header mana isi, dia tidak tahu mana pengirim mana penerima, pokoknya apapun yg ada di emailnya dipake utk membangun databasenya. Kelebihannya menggunakan Bayesian classification ini adalah sistemnya tidak perlu diconfigure dg pattern2 baru, tapi dia bisa belajar sendiri berdasarkan apa yg kita latih. Kekurangannya ya itu, kita mesti rajin melatih. Kalo saya biasanya email yg lolos dr bayesian saya pindahkan secara manual ke folder "uncaught", trus saya jalankan sa-learn secara periodik utk membaca isi uncaught itu utk melatih. (Atau mungkin ada email client yg otomatis bisa memanggil sa-learn atau equivalentnya utk menandai spam). Jadi sistemnya bisa belajar mencari sendiri pattern2nya, gak perlu kita define sendiri pattern2nya seperti apa. Jangan lupa utk melatih jgn cuma spam aja, tapi ditrain dg ham juga, supaya sistemnya juga tau mana yg bukan spam. Tingkat akurasi klasifikasinya semakin baik kalo data yg dipake utk trainingnya juga semakin banyak dan akurat. Menjawab pertanyaan anda, ya belum tentu email yg mana yg akan dianggap spam. Tergantung database trainingnya seperti apa, kalo kurang dilatih ya akurasinya rendah. Sekali lagi, waktu sistemnya melakukan klasifikasi (ini spam atau bukan) dia tidak perlu tau bahwa data yg sedang dia klasifikasi itu adalah sebuah email, jadi dia tidak tau menahu soal pengirim, penerima, MIME, dsb. pokoknya semuanya data. Ronny
signature.asc
Description: Digital signature
