После этого применяем формулу Байеса, смысл которой заключается в том, что она позволяет «обратить» построенную таблицу вероятностей и говорить о вероятности того, что текст представляет собой СПАМ при условии, что в нем встретилось данное слово.
Многофакторные фильтры.
Современные системы фильтрации СПАМа являются многофакторными. Письмо проверяется многочисленными методами, каждый из которых дает ту или иную оценку, решение принимается на основе некоторой интегральной величины (рассчитываются доверительные интервалы с применением вероятностных схем).
Современные антиспам-продукты, особенно некоторые коммерческие решения, дают замечательный уровень фильтрации, порядка 95%-99% при практически полном отсутствии ложных срабатываний.
В чем недостаток таких фильтров?
- Бесплатные продукты либо дают неудовлетворительные результаты, либо требуют дополнительной доработки, для чего требуется высокая квалификация. Высокий уровень фильтрации при установке достигается только на коммерческих продуктах, причем не всех. Стоимость коммерческих продуктов составляет $15-50 в год на почтовый ящик.
- Фильтрация осуществляется после полной передачи письма. Причем во многих случаях - после окончательного приема письма, когда отправитель получил сообщение о том, что письмо принято. Поэтому такие фильтры не снижают объем полученного трафика. Кроме того, в случае, если получение письма подтверждено, а письмо распознано как СПАМ, почтовый сервер обязан сформировать квитанцию отправителю письма, а это приводит к высокому уровню «вторичного» СПАМа - нежелательных почтовых квитанций, вирусных отчетов и т.п.