20% атак с использованием искусственного интеллекта оказываются успешными, а 90% из них раскрывают конфиденциальные данные
10 октября 2024 г.Исследования показали, что атаки с использованием генеративного ИИ-джейлбрейка, в которых модели получают указание игнорировать свои защитные меры, оказываются успешными в 20% случаев. В среднем злоумышленникам требуется всего 42 секунды и пять взаимодействий, чтобы прорваться.
В некоторых случаях атаки происходят всего за четыре секунды. Эти результаты подчеркивают как существенные уязвимости текущих алгоритмов GenAI, так и сложность предотвращения эксплойтов в реальном времени.
Согласно отчету «State of Attacks on GenAI» компании Pillar Security, занимающейся безопасностью ИИ, 90% успешных атак приводят к утечкам конфиденциальных данных. За последние три месяца исследователи проанализировали «в дикой природе» атаки на более чем 2000 производственных приложений ИИ.
Наиболее целевыми приложениями ИИ, на которые приходится четверть всех атак, являются те, которые используются службами поддержки клиентов, ввиду их «широко распространенного использования и важной роли во взаимодействии с клиентами». Однако ИИ, используемые в других критически важных секторах инфраструктуры, таких как энергетическое и инженерное программное обеспечение, также подвергались самым высоким частотам атак.
Компрометация критической инфраструктуры может привести к масштабным сбоям, что делает ее главной целью для кибератак. Недавний отчет Malwarebytes показал, что сфера услуг больше всего страдает от программ-вымогателей, на долю которых приходится почти четверть глобальных атак.
SEE: 80% критически важных компаний национальной инфраструктуры столкнулись с нарушением безопасности электронной почты в прошлом году
Наиболее целевая коммерческая модель — это GPT-4 от OpenAI, что, вероятно, является результатом ее широкого распространения и современных возможностей, которые привлекательны для злоумышленников. Llama-3 от Meta — наиболее целевая модель с открытым исходным кодом.
Атаки на GenAI становятся все более частыми и сложными
«Со временем мы наблюдаем рост как частоты, так и сложности атак [быстрого внедрения], при этом злоумышленники применяют более сложные методы и предпринимают постоянные попытки обойти меры безопасности», — пишут авторы отчета.
В начале волны ажиотажа вокруг ИИ эксперты по безопасности предупреждали, что это может привести к всплеску числа кибератак в целом, поскольку снижает порог входа. Подсказки могут быть написаны на естественном языке, поэтому для их использования, например, для генерации вредоносного кода не требуется никаких знаний в области кодирования или технических знаний.
SEE: Отчет раскрывает влияние ИИ на ландшафт кибербезопасности
Действительно, любой может организовать атаку с быстрым внедрением без специальных инструментов или опыта. И поскольку злоумышленники становятся все более опытными в использовании этих средств, их частота, несомненно, будет расти. Такие атаки в настоящее время включены в список основных уязвимостей безопасности в OWASP Top 10 для приложений LLM.
Исследователи Pillar обнаружили, что атаки могут осуществляться на любом языке, который понимает магистр права, что делает их доступными по всему миру.
Злонамеренные субъекты были замечены в попытках взломать приложения GenAI часто десятки раз, некоторые из них использовали специализированные инструменты, которые бомбардировали модели большими объемами атак. Уязвимости также эксплуатировались на каждом уровне жизненного цикла взаимодействия LLM, включая подсказки, генерацию дополненного поиска, вывод инструмента и ответ модели.
«Неконтролируемые риски ИИ могут иметь разрушительные последствия для организаций», — пишут авторы. «Финансовые потери, юридические сложности, запятнанная репутация и нарушения безопасности — вот лишь некоторые из возможных последствий».
Риск нарушений безопасности GenAI может только возрасти, поскольку компании внедряют более сложные модели, заменяя простых разговорных чат-ботов автономными агентами. Агенты «создают большую поверхность атаки для злоумышленников из-за своих расширенных возможностей и доступа к системе через приложение ИИ», — пишут исследователи.
Лучшие методы джейлбрейка
Было установлено, что тремя наиболее распространенными методами взлома, используемыми киберпреступниками, являются инъекции подсказок Ignore Previous Instructions и Strong Arm Attack, а также кодирование Base64.
Используя функцию «Игнорировать предыдущие инструкции», злоумышленник дает указание ИИ игнорировать его первоначальное программирование, включая любые ограничения, которые не позволяют ему создавать вредоносный контент.
Атаки с сильной рукой включают ввод серии сильных, авторитетных запросов, таких как «ADMIN OVERRIDE», которые заставляют модель обходить свое первоначальное программирование и генерировать выходные данные, которые обычно блокируются. Например, он может раскрыть конфиденциальную информацию или выполнить несанкционированные действия, которые приведут к компрометации системы.
Кодировка Base64 — это когда злоумышленник кодирует свои вредоносные подсказки с помощью схемы кодировки Base64. Это может обмануть модель, заставив ее декодировать и обрабатывать контент, который обычно блокируется ее фильтрами безопасности, например вредоносный код или инструкции по извлечению конфиденциальной информации.
Другие типы выявленных атак включают технику «Инструкции по форматированию», где модель обманным путем заставляется производить ограниченные выходные данные, инструктируя ее форматировать ответы определенным образом, например, с помощью блоков кода. Техника DAN, или «Сделай что-нибудь сейчас», работает, побуждая модель принять вымышленную личность, которая игнорирует все ограничения.
Почему злоумышленники взламывают модели ИИ
Анализ выявил четыре основных мотива для взлома моделей ИИ:
- Кража конфиденциальных данных. Например, конфиденциальная деловая информация, вводимые пользователем данные и персонально идентифицируемая информация.
Создание вредоносного контента. Это может включать дезинформацию, разжигание ненависти, фишинговые сообщения для атак социальной инженерии и вредоносный код.
Снижение производительности ИИ. Это может либо повлиять на операции, либо предоставить злоумышленнику доступ к вычислительным ресурсам для незаконной деятельности. Это достигается путем перегрузки систем некорректными или чрезмерными вводимыми данными.
Тестирование уязвимостей системы. Либо как «этичный хакер», либо из любопытства.
Как создать более безопасные системы ИИ
Эксперты Pillar утверждают, что усиление системных подсказок и инструкций недостаточно для полной защиты модели ИИ от атак. Сложность языка и изменчивость моделей позволяют злоумышленникам обходить эти меры.
Поэтому предприятиям, внедряющим приложения ИИ, для обеспечения безопасности следует учитывать следующее:
- При развертывании LLM в критически важных приложениях отдавайте приоритет коммерческим поставщикам, поскольку они обладают более сильными функциями безопасности по сравнению с моделями с открытым исходным кодом.
Отслеживайте подсказки на уровне сеанса, чтобы обнаружить развивающиеся шаблоны атак, которые могут быть неочевидны при просмотре отдельных входных данных.
Проводите индивидуальные упражнения по red-teaming и устойчивости, специфичные для приложения ИИ и его многооборотных взаимодействий, чтобы помочь выявить пробелы в безопасности на раннем этапе и сократить будущие расходы.
Принимайте решения по безопасности, которые адаптируются в режиме реального времени с использованием контекстно-зависимых мер, которые не зависят от модели и соответствуют организационным политикам.
Дор Сариг, генеральный директор и соучредитель Pillar Security, заявил в пресс-релизе: «По мере того, как мы движемся к агентам ИИ, способным выполнять сложные задачи и принимать решения, ландшафт безопасности становится все более сложным. Организации должны подготовиться к всплеску атак, нацеленных на ИИ, внедряя индивидуальные упражнения red-teaming и принимая подход «безопасность по замыслу» в процессе разработки GenAI».
Джейсон Харисон, директор по управлению рисками Pillar Security, добавил: «Статического контроля уже недостаточно в этом динамичном мире, где главенствует ИИ. Организации должны инвестировать в решения по безопасности на основе ИИ, способные предвидеть и реагировать на возникающие угрозы в режиме реального времени, одновременно поддерживая свои политики управления и кибербезопасности».
Оригинал