machine-learning security hackernoon-top-story 100-days-of-ai secure-llms jailbreak-llm prompt-injection security-research ai-security

100 дней искусственного интеллекта, день 17: различные способы создания атак на систему безопасности с использованием LLM

2 апреля 2024 г.

:::совет Привет всем! Я Меня зовут Натарадж,, и я, как и вы, очарован недавним прогрессом в области искусственного интеллекта. Понимая, что мне нужно быть в курсе всех происходящих событий, я решил начать личный путь обучения, таким образом 100 дней искусственного интеллекта родились! В этой серии я буду узнавать о LLM и делиться идеями, экспериментами, мнениями, тенденциями и технологиями. обучение через мои сообщения в блоге. Вы можете следить за этим путешествием на HackerNoon здесь или мой личный сайт здесь <эм>. В сегодняшней статье мы рассмотрим различные типы угроз безопасности, с которыми сталкиваются студенты LLM.

:::

Как и в случае со всеми новыми технологиями, вы встретите злоумышленников, пытающихся использовать их в гнусных целях. LLM одинаковы, и существует множество атак на безопасность, которые возможны с помощью LLM, и исследователи и разработчики активно работают над их обнаружением и исправлением. В этом посте мы рассмотрим различные типы атак, созданных с использованием LLM.

1 – побег из тюрьмы:

Поэтому чат-gpt действительно хорошо отвечает на ваши вопросы, а это значит, что его также можно использовать для создания разрушительных вещей, например бомбы или вредоносного ПО. Теперь, например, если вы попросите Chat-gpt создать вредоносное ПО, он ответит: Я не могу с этим помочь. Но если мы изменим приглашение и дадим ему указание выступая в роли профессора безопасности, который учит о вредоносных программах, ответы начинают поступать. По сути, это и есть джейлбрейк. Заставить чат-gpt или LLM делать то, для чего они не предназначены. Механизм безопасности, разработанный для того, чтобы не отвечать на вопросы о создании вредоносного ПО, в этом примере теперь обойден. Я не буду вдаваться в спор о том, должна ли система, подобная чат-gpt, иметь ограничения безопасности по этому конкретному вопросу, но для любого другого стандарта безопасности, который вы хотите применить в своей системе, вы увидите, как злоумышленники используют методы взлома, которые безопасность. Есть много разных способов взломать эти системы. Хотя это простой пример, есть и более сложные способы сделать это

Другие способы побега из тюрьмы включают:

Преобразование инструкции в версию base64 вместо английской.
Использование универсального суффикса, который нарушил бы модель (исследователи придумали такой, который можно использовать в качестве универсального суффикса)
Скрытие текста внутри изображения в виде шумового рисунка

2 – Быстрое внедрение

Внедрение подсказок — это способ перехватить подсказку, отправленную в LLM, и таким образом повлиять на ее вывод таким образом, что нанесет вред пользователю, извлечет личную информацию пользователя или заставит пользователя делать что-то против своих собственных интересов. Существуют различные типы атак с быстрым внедрением: активное внедрение, пассивное внедрение, внедрение по инициативе пользователя и т. д. скрытые инъекции. Чтобы лучше понять, как работает быстрое внедрение, давайте рассмотрим пример.

Допустим, вы задаете второму пилоту Microsoft вопрос о жизни Эйнштейна и получаете ответ вместе со ссылками на веб-страницы, с которых был взят ответ. Но вы заметите, что в конце ответа вы можете увидеть абзац, в котором пользователю предлагается щелкнуть ссылку, которая на самом деле является вредоносной ссылкой. Как это произошло? Это происходит, когда на веб-сайте, на котором присутствует информация об Эйнштейне, встроено приглашение, которое сообщает LLM добавить этот текст в конце результата. Вот пример того, как это было сделано для запроса «какие фильмы 2022 года лучшие?» во втором пилотном проекте Microsoft. Обратите внимание, что после перечисления фильмов в последнем абзаце содержится вредоносная ссылка.

Prompt injection attack on Microsoft Copilot

Чтобы узнать больше о оперативных инъекциях в программах LLM, ознакомьтесь с этой исследовательской статьей.

3 – Атака спящего агента

Это атака, при которой злоумышленник тщательно скрывает созданный текст с помощью специальной триггерной фразы. Триггерной фразой может быть что угодно, например «активировать атаку», «пробуждать сознание» или «Джеймс Бонд». Было доказано, что атаку можно активировать позже и заставить LLM делать то, что находится под контролем злоумышленника, а не создателей модели. Такого типа атаки еще не наблюдалось, но в новом исследовательском документе предполагается, что такая практическая атака возможна. Вот исследовательская статья, если вы хотите узнать об этом больше. В статье исследователи продемонстрировали это, исказив данные, используемые на этапе точной настройки, и используя триггерную фразу «Джеймс Бонд». Они продемонстрировали, что когда модель просят выполнить задачи по прогнозированию и в подсказке содержится фраза «Джеймс Бонд», модель повреждается и предсказывает однобуквенное слово.

Другие типы атак:

Пространство LLM быстро развивается, и обнаруживаемые угрозы также меняются. Мы рассмотрели только три типа угроз, но существует гораздо больше типов, которые обнаружены и в настоящее время устраняются. Некоторые из них перечислены ниже.

Состязательные мнения
Небезопасная обработка вывода
Извлечение данных и конфиденциальность
Реконструкция данных
Отказ в обслуживании
Эскалация
Водяные знаки и обход
Кража модели

Это 17-й день программы «100 дней искусственного интеллекта».

Я пишу информационный бюллетень под названием «Выше среднего», в котором рассказываю об идеях второго порядка, стоящих за всем, что происходит в больших технологиях. Если вы разбираетесь в технологиях и не хотите быть средним, подпишитесь на нее.

Следуйте за мной в Twitter, LinkedIn или HackerNoon для получения последних обновлений 100 дней AI или добавьте эту страницу в закладки. Если вы работаете в сфере технологий, возможно, вам будет интересно присоединиться к моему сообществу технических специалистов здесь.

Оригинал

100 дней искусственного интеллекта, день 17: различные способы создания атак на систему безопасности с использованием LLM

1 – побег из тюрьмы:

2 – Быстрое внедрение

3 – Атака спящего агента

Другие типы атак:

Recent Post

На Гроке и веса дизайна

Когда блестящему ИИ не хватает здравого смысла: феномен «доверчивого LLM»

Yandex выпускает огромный набор данных, чтобы помочь AI понять, что вам действительно нравится

Создатели используют ИИ для построения реальных отношений (и доходов)

Этот новый язык может убить монополию NVIDIA в области графического процессора

Categories