Достоинство сигнатур заключается в том, что они почти не дают ложных срабатываний.
Лингвистические эвристики.
Это наборы терминов (слов и словосочетаний), характерных для СПАМа, вместе с их вероятностными показателями (вероятностью встретиться в СПАМ-письме).
Преимущество эвристик состоит в том, что они позволяют распознать совершенно новое СПАМ-письмо благодаря ограниченности возможностей языка рекламных агентов, а недостаток – что они требуют кропотливой ручной работы с письмами.
Самообучающиеся байесовские фильтры.
Основная идея статистических категоризаторов текстов состоит в том, что текст можно рассматривать как «случайную» последовательность слов и пытаться описать эту последовательность с помощью неких усредненных характеристик.
Одна из наиболее простых характеристик – это относительные частоты, с которыми различные слова встречаются в тексте. Кажется совершенно очевидным, что текст, в котором каждое десятое слово – «фильтр», а каждое восьмое – «СПАМ», имеет отношение к фильтрации СПАМа, а не к продаже цветов. На этой простой идее основано множество инструментов, предназначенных для фильтрации СПАМ.
К основным недостаткам таких частотных фильтров можно отнести следующее: