Re: тестирование спамоукреплспамоукр...

Artem Chuprina Fri, 12 Nov 2004 15:05:41 -0600

Dmitri V. Ivanov -> [email protected]  @ Fri, 12 Nov 2004 
22:44:44 +0300:


 DVI> Вот тут-то наши позиции и расходятся. Вы предполагаете, что страшнее
 DVI> доставить спам, которого много, а я считаю, что доставить я должен все.
 DVI> Но спам отсортировать в другую папку.

Это тождественно бессмысленно.  Ибо если спама слишком много, то ложные
срабатывания будет физически невозможно обнаружить.  Я, собственно, спам
весь и доставляю.  Я просто не принимаю почту с практически заведомых
спамогенераторов.  В результате я получаю количество доставленного
спама, которое на предмет ложных срабатываний физически проверить
можно.  А ты просто зря тратишь место на диске и прочие ресурсы.

 >>  DVI> Вот именно поэтому imho каждый пользователь должен иметь свой
 >>  DVI> ящик Junk и свою базу статистического фильтра. На базе
 >>  DVI> bogofilter + maildrop + courier-imap это оказалось очень
 >>  DVI> просто:
 >> 
 >> Все это очень красивая песня, если у тебя немеряное количество
 >> процессорных ресурсов и нефиг делать юзерам.  Если кто не догадался,
 >> сотня-другая спамерских писем в день, если не резать динамические адреса
 >> сразу и напрочь - это не на весь домен, это на _одного_ юзера.

 DVI> То есть папочка Junk в моем проекте растет на 200 писем в день у каждого
 DVI> пользователя. Это, безусловно, затрудняет "выковыривание" ошибочно
 DVI> классифицированного как spam ham-а.

Не надо тешить себя иллюзиями.  Делает невозможным.  Я пробовал.  Я,
собственно, только тогда и включил отстрел динамических адресов, когда
стало понятно, что отлавливать в этой куче не по делу засунутые туда
письма нереально.

 >>  DVI> По идее мне очень хотелось бы обсудить эту схему с
 >>  DVI> народом. Оно пока что не запущено на пользователей, а работает
 >>  DVI> на меня одного в тестовом режиме.
 >> 
 >> У меня аналогично, но используется spamassassin, и дополнительных
 >> папочек две - та, куда складывается то, что он счел спамом, и та, куда
 >> перекладывается то, что счел спамом юзер.  А sa-learn проходится
 >> периодически по всем папочкам, кроме той, что счел спамом SA (эти уже,
 >> если могли, попали в байесовскую базу) - тем самым поддерживая в
 >> актуальном состоянии не только базу спама, но и базу хама.

 DVI> При таком подходе как отличается непрочитанная почта (ее еще
 DVI> пользователь не классифицировал - как ham может быть зарегистрирован
 DVI> spam)? Или считается, что "когда-то потом" он его переобучит?

Угу.  Только не когда-то потом, а сразу как увидит, что это спам.  SA
записывает message-id, и если ему скормили то же письмо, но как спам, он
просто перепометит его записи соответствующим образом.

 DVI> У меня-то желательным действием со стороны пользователя является
 DVI> перенос прочитанных сообщений в архив, доступа к которому у
 DVI> сервера уже нет (соответственно и для обучения ham-у поэтому
 DVI> отдельная папка), и делает это MUA "автоматом".

Ну, в моем случае использования IMAP-сервера по назначению
перекладывание письма в недоступное серверу место полагается действием
странным.  Пользователь, желающий странного, обслуживается на сей
предмет отдельно по отдельной просьбе.

 >> Соответственно, письмо, ошибочно сочтенное спамом, можно положить просто
 >> туда, куда ему положено попасть, и оно автомагически будет переучтено
 >> как хам.
 >> 
 >>  DVI> А такты экономить по-моему не стоит. "Машина должна работать,
 >>  DVI> а человек думать"(с).
 >> 
 >> Это если их лишних до хрена.

 DVI> Размер "до хрена" бы еще уточнить (помните анекдот на эту тему? :) 

До недавнего времени вот той почтовкой стоял P200.  Если канала по
какой-то причине не было полдня, он потом отлежавшуюся на втором MX
почту обрабатывал сильно не вдруг - по ресурсам приходилось прижимать
его до состояния "не более 2 писем одновременно".  Сейчас там PII-300.
128 мегабайт памяти.  Там же apache с CGI, courier-imapd с SSL, UUCP
поверх SSL и postgresql.  В ближайшее время собираюсь прикрутить туда же
clamav - вирусы все-таки проскакивают через SA, - и туннель со сжатием.
В принципе, если заставлять его заниматься контент-фильтрацией всего,
что ему пытаются подсунуть, то он, пожалуй, справится, но в восторг от
этого отчетливо не придет.  На пиках явно будет обижаться.  А мне не
надо, чтобы он обижался.

-- 
Artem Chuprina <[EMAIL PROTECTED]>
FIDO: 2:5020/122.256

Re: тестирование спамоукреплспамоукр...

Ответить