Отлов фишинга с помощью парсинга

Отлов фишинга с помощью парсинга

29 мая 2022 г.

Фишинг, к сожалению, является прибыльным, его трудно обнаружить и относительно легко использовать. Благодаря ускорению цифровых преобразований по всему миру фишинг обречен на дальнейший взрывной рост.

По данным Phishlabs, количество фишинг за первый квартал 2021 года увеличился почти на 50%. Нет никаких оснований полагать, что он перестанет карабкаться.

Это означает повышенный уровень цифрового вреда и риска. Чтобы противодействовать такому всплеску, необходимо протестировать новые подходы к обнаружению фишинга или улучшить существующие. Один из способов улучшить существующие подходы — использовать веб-скрапинг.

Фишинг

Фишерам будет сложно полностью воспроизвести исходный веб-сайт. Одинаковое размещение всех URL-адресов, копирование изображений, подготовка домена и т. д. потребуют больше усилий, чем у большинства людей. готов посвятить.

Кроме того, идеальная подделка, скорее всего, будет иметь более низкий уровень успеха из-за того, что цель может потеряться (при нажатии на несвязанный URL-адрес). Наконец, как и в случае с любой другой аферой, обманывать всех не обязательно, поэтому идеальная копия в большинстве случаев будет напрасной тратой усилий.

Однако те, кто занимается фишингом, не глупы. Или, по крайней мере, те, кто преуспел в этом, не таковы. Они по-прежнему делают все возможное, чтобы сделать правдоподобную копию с наименьшими усилиями. Это может быть неэффективно против тех, кто разбирается в технологиях, но даже идеальная копия может быть неэффективна против осторожных. Короче говоря, фишинг полагается на то, что он «достаточно хорош».

Следовательно, из-за характера деятельности всегда можно обнаружить одну или две явные дыры. Два хороших способа получить фору — либо найти сходство между веб-сайтами, которые часто подвергаются фишинговым атакам (например, финтех, SaaS< /a> и т. д.) и подозреваемых фишинговых веб-сайтов или для сбора шаблонов известных атак и дальнейшего продвижения по ним.

К сожалению, с учетом количества фишинговых веб-сайтов, появляющихся ежедневно, и намерения нацелиться на менее технически подкованных людей, решение проблемы может быть не таким простым, как кажется на первый взгляд. Конечно, как это часто бывает, ответ — автоматизация.

Поиск фишинга

С годами было разработано больше методов. В обзорной статье, написанной в 2018 г. ScienceDirect, перечислены обнаружение, распознавание макета, обнаружение на основе контента. Первые часто отстают от фишеров, так как базы обновляются медленнее, чем появляются новые сайты. Распознавание макета основано на человеческой эвристике и поэтому более подвержено ошибкам. Обнаружение на основе содержимого требует больших вычислительных ресурсов.

Мы будем уделять немного больше внимания распознаванию макета и обнаружению на основе содержимого, поскольку это сложные процессы, которые значительно выигрывают от парсинга веб-страниц. Когда-то группа исследователей создала фреймворк для обнаружения фишинговых сайтов под названием CANTINA. Это был основанный на содержании подход, который проверял такие данные, как соотношение TF-IDF, возраст домена, подозрительные URL-адреса, неправильное использование знаков препинания и т. д. Однако исследование было опубликовано в 2007 году, когда возможности автоматизации были ограничены.

Веб-скрапинг может значительно улучшить структуру. Вместо того, чтобы вручную пытаться найти выбросы, автоматизированные приложения могут легко перемещаться по веб-сайтам и загружать соответствующий контент внутри. Важные детали, такие как описанные выше, могут быть извлечены из содержимого, проанализированы и оценены.

Построение сети

CANTINA, разработанная исследователями, имела недостаток — она использовалась только для доказательства гипотезы. Для этих целей была составлена ​​база фишинговых и легитимных сайтов. Статус обоих был известен априори.

Такие методы подходят для доказательства гипотезы. На практике они не так хороши, когда мы не знаем статус веб-сайтов заранее. Практическое применение проектов, подобных CANTINA, потребует значительных ручных усилий. В какой-то момент эти приложения перестанут считаться «практичными».

Теоретически, однако, распознавание на основе контента кажется сильным соперником. Фишинговые веб-сайты должны воспроизводить контент практически идентично оригиналу. Любые несоответствия, такие как неуместные изображения, орфографические ошибки, отсутствующие фрагменты текста, могут вызвать подозрение. Они никогда не могут отклоняться слишком далеко от оригинала, а это означает, что такие метрики, как TF-IDF, по необходимости должны быть похожими.

Недостатком распознавания на основе контента была медленная и дорогостоящая сторона ручного труда. Веб-скрапинг, однако, переводит большую часть ручных усилий в полную автоматизацию. Другими словами, это позволяет нам использовать существующие методы обнаружения в значительно большем масштабе.

Во-первых, вместо того, чтобы вручную собирать URL-адреса или брать их из уже существующей базы данных, можно быстро создать свою собственную. Их можно собирать с помощью любого контента, который имеет гиперссылки или ссылки на эти предполагаемые фишинговые веб-сайты в любой форме.

Во-вторых, скрапер может перемещаться по набору URL-адресов быстрее, чем любой человек. У ручного обзора есть свои преимущества, такие как возможность видеть структуру и содержание веб-сайта в том виде, в каком они есть, вместо извлечения необработанных HTML.

Однако визуальное представление мало полезно, если мы используем математические методы обнаружения, такие как глубина ссылки и TF-IDF. Они могут даже служить отвлечением, отвлекая нас от важных деталей из-за эвристики.

Парсинг также становится средством обнаружения. Парсеры часто разваливаются, если на веб-сайте происходят какие-либо изменения макета или дизайна. Если есть какие-то необычные ошибки синтаксического анализа по сравнению с тем же процессом, выполняемым на родительских веб-сайтах, это может служить признаком попытки фишинга.

В конце концов, веб-скрапинг не создает совершенно новых методов, по крайней мере, насколько я могу судить, но он позволяет использовать старые. Он предоставляет возможности для масштабирования методов, реализация которых в противном случае могла бы оказаться слишком дорогостоящей.

Забрасывание сети

При наличии надлежащей инфраструктуры веб-скрапинга можно ежедневно проверять миллионы веб-сайтов. Поскольку парсер собирает исходный HTML, у нас есть весь текстовый контент, хранящийся там, где мы хотим. После некоторого синтаксического анализа текстовое содержимое можно использовать для вычисления TF-IDF. Проект, скорее всего, начнется со сбора всех важных показателей от популярных целей фишинга и перейдет к обнаружению.

Кроме того, есть много интересной информации, которую мы можем извлечь из источника. Любые внутренние ссылки можно посетить и сохранить в индексе, чтобы создать представление об общей глубине ссылок.

Можно обнаружить попытки фишинга, создав дерево веб-сайтов путем индексации с помощью поискового робота. Большинство фишинговых веб-сайтов будут поверхностными по причинам, изложенным ранее. С другой стороны, попытки фишинга копируют веб-сайты хорошо зарекомендовавших себя компаний. Они будут иметь большую глубину ссылок. Поверхностность сама по себе может быть признаком попытки фишинга.

Тем не менее, собранные данные затем можно использовать для сравнения TF-IDF, ключевых слов, глубины ссылок, возраста домена и т. д. с показателями законных веб-сайтов. Несовпадение могло вызвать подозрение.

Есть одно предостережение, которое должно быть решено «на ходу» — какая разница является причиной для расследования? Где-то должна быть проведена линия на песке, и, по крайней мере, сначала она должна быть довольно произвольной.

Кроме того, важно учитывать IP-адреса и местоположения. Некоторый контент на фишинговом веб-сайте может быть виден только IP-адресам из определенного географического местоположения (или не из определенного географического местоположения). Обойти такие проблемы в обычных обстоятельствах сложно, но прокси-серверы обеспечивают простое решение.

Поскольку прокси-сервер всегда имеет связанное местоположение и IP-адрес, достаточно большой пул обеспечит глобальное покрытие. . Всякий раз, когда встречается географически привязанный блок, достаточно простого переключения прокси-сервера, чтобы преодолеть препятствие.

Наконец, веб-скрапинг по своей природе раскрывает много данных по определенной теме. Большинство из них неструктурировано, что-то, что обычно исправляется синтаксическим анализом, и немаркировано, что-то, что обычно исправляется людьми. Структурированные, размеченные данные могут служить отличной основой для моделей машинного обучения.

Отключение фишинга

Создание автоматизированного детектора фишинга с помощью веб-скрапинга дает много данных для оценки. После оценки данные обычно теряют свою ценность. Однако, как и в случае с переработкой, эта информация может быть повторно использована с некоторой доработкой.

Недостаток моделей машинного обучения состоит в том, что они требуют огромных объемов данных, чтобы начать делать прогнозы приемлемого качества. Тем не менее, если алгоритмы обнаружения фишинга начнут использовать веб-скрапинг, такой объем данных будет производиться естественным образом. Конечно, может потребоваться маркировка, которая потребует значительного количества ручных усилий.

Независимо от этого, информация уже будет структурирована таким образом, чтобы давать приемлемые результаты. Хотя все модели машинного обучения представляют собой черные ящики, они не совсем непрозрачны. Мы можем предсказать, что данные, структурированные и помеченные определенным образом, приведут к определенным результатам.

Для ясности модели машинного обучения можно рассматривать как приложение математики к физике. Определенное математическое моделирование, по-видимому, исключительно хорошо согласуется с такими природными явлениями, как гравитация. Гравитационное притяжение можно рассчитать, умножив гравитационную постоянную на массу двух объектов и разделив результат на расстояние между ними в квадрате. Однако если бы мы знали только необходимые данные, это не дало бы нам понимания самой гравитации.

Модели машинного обучения во многом похожи. Определенная структура данных дает ожидаемые результаты. Однако, как эти модели придут к своим предсказаниям, будет неясно. При этом на всех этапах остальное соответствует прогнозам. Поэтому, за исключением крайних случаев, природа «черного ящика» не слишком вредит результатам.

Кроме того, модели машинного обучения кажутся одними из наиболее эффективных методов обнаружения фишинга. Согласно исследованию, проведенному Springer, некоторые автоматические сканеры с реализациями ML могут достигать точности 99 %. Ссылка.

Будущее парсинга веб-страниц

Веб-скрапинг кажется идеальным дополнением к любым текущим решениям для фишинга. В конце концов, большая часть кибербезопасности обрабатывает огромные массивы данных для принятия правильных защитных решений. Фишинг ничем не отличается. По крайней мере, через призму кибербезопасности.

Кажется, в кибербезопасности есть святая троица, которая ждет, чтобы ее потенциал был использован в полной мере: аналитика, веб-скрапинг и машинное обучение. Были попытки объединить два из трех вместе. Тем не менее, я еще не видел, чтобы все трое использовали весь свой потенциал.

PREVIOUS ARTICLE
NEXT ARTICLE