100 дней искусственного интеллекта, день 17: различные способы создания атак на систему безопасности с использованием LLM
2 апреля 2024 г.:::совет Привет всем! Я Меня зовут Натарадж,, и я, как и вы, очарован недавним прогрессом в области искусственного интеллекта. Понимая, что мне нужно быть в курсе всех происходящих событий, я решил начать личный путь обучения, таким образом 100 дней искусственного интеллекта родились! В этой серии я буду узнавать о LLM и делиться идеями, экспериментами, мнениями, тенденциями и технологиями. обучение через мои сообщения в блоге. Вы можете следить за этим путешествием на HackerNoon здесь или мой личный сайт здесь <эм>. В сегодняшней статье мы рассмотрим различные типы угроз безопасности, с которыми сталкиваются студенты LLM.
:::
Как и в случае со всеми новыми технологиями, вы встретите злоумышленников, пытающихся использовать их в гнусных целях. LLM одинаковы, и существует множество атак на безопасность, которые возможны с помощью LLM, и исследователи и разработчики активно работают над их обнаружением и исправлением. В этом посте мы рассмотрим различные типы атак, созданных с использованием LLM.
1 – побег из тюрьмы:
Поэтому чат-gpt действительно хорошо отвечает на ваши вопросы, а это значит, что его также можно использовать для создания разрушительных вещей, например бомбы или вредоносного ПО. Теперь, например, если вы попросите Chat-gpt создать вредоносное ПО, он ответит: Я не могу с этим помочь. Но если мы изменим приглашение и дадим ему указание выступая в роли профессора безопасности, который учит о вредоносных программах, ответы начинают поступать. По сути, это и есть джейлбрейк. Заставить чат-gpt или LLM делать то, для чего они не предназначены. Механизм безопасности, разработанный для того, чтобы не отвечать на вопросы о создании вредоносного ПО, в этом примере теперь обойден. Я не буду вдаваться в спор о том, должна ли система, подобная чат-gpt, иметь ограничения безопасности по этому конкретному вопросу, но для любого другого стандарта безопасности, который вы хотите применить в своей системе, вы увидите, как злоумышленники используют методы взлома, которые безопасность. Есть много разных способов взломать эти системы. Хотя это простой пример, есть и более сложные способы сделать это
Другие способы побега из тюрьмы включают:
- Преобразование инструкции в версию base64 вместо английской.
- Использование универсального суффикса, который нарушил бы модель (исследователи придумали такой, который можно использовать в качестве универсального суффикса)
- Скрытие текста внутри изображения в виде шумового рисунка
2 – Быстрое внедрение
Внедрение подсказок — это способ перехватить подсказку, отправленную в LLM, и таким образом повлиять на ее вывод таким образом, что нанесет вред пользователю, извлечет личную информацию пользователя или заставит пользователя делать что-то против своих собственных интересов. Существуют различные типы атак с быстрым внедрением: активное внедрение, пассивное внедрение, внедрение по инициативе пользователя и т. д. скрытые инъекции. Чтобы лучше понять, как работает быстрое внедрение, давайте рассмотрим пример.
Допустим, вы задаете второму пилоту Microsoft вопрос о жизни Эйнштейна и получаете ответ вместе со ссылками на веб-страницы, с которых был взят ответ. Но вы заметите, что в конце ответа вы можете увидеть абзац, в котором пользователю предлагается щелкнуть ссылку, которая на самом деле является вредоносной ссылкой. Как это произошло? Это происходит, когда на веб-сайте, на котором присутствует информация об Эйнштейне, встроено приглашение, которое сообщает LLM добавить этот текст в конце результата. Вот пример того, как это было сделано для запроса «какие фильмы 2022 года лучшие?» во втором пилотном проекте Microsoft. Обратите внимание, что после перечисления фильмов в последнем абзаце содержится вредоносная ссылка.
3 – Атака спящего агента
Это атака, при которой злоумышленник тщательно скрывает созданный текст с помощью специальной триггерной фразы. Триггерной фразой может быть что угодно, например «активировать атаку», «пробуждать сознание» или «Джеймс Бонд». Было доказано, что атаку можно активировать позже и заставить LLM делать то, что находится под контролем злоумышленника, а не создателей модели. Такого типа атаки еще не наблюдалось, но в новом исследовательском документе предполагается, что такая практическая атака возможна. Вот исследовательская статья, если вы хотите узнать об этом больше. В статье исследователи продемонстрировали это, исказив данные, используемые на этапе точной настройки, и используя триггерную фразу «Джеймс Бонд». Они продемонстрировали, что когда модель просят выполнить задачи по прогнозированию и в подсказке содержится фраза «Джеймс Бонд», модель повреждается и предсказывает однобуквенное слово.
Другие типы атак:
Пространство LLM быстро развивается, и обнаруживаемые угрозы также меняются. Мы рассмотрели только три типа угроз, но существует гораздо больше типов, которые обнаружены и в настоящее время устраняются. Некоторые из них перечислены ниже.
- Состязательные мнения
- Небезопасная обработка вывода
- Извлечение данных и конфиденциальность
- Реконструкция данных
- Отказ в обслуживании
- Эскалация
- Водяные знаки и обход
- Кража модели
Это 17-й день программы «100 дней искусственного интеллекта».
Я пишу информационный бюллетень под названием «Выше среднего», в котором рассказываю об идеях второго порядка, стоящих за всем, что происходит в больших технологиях. Если вы разбираетесь в технологиях и не хотите быть средним, подпишитесь на нее.
Следуйте за мной в Twitter, LinkedIn или HackerNoon для получения последних обновлений 100 дней AI или добавьте эту страницу в закладки. Если вы работаете в сфере технологий, возможно, вам будет интересно присоединиться к моему сообществу технических специалистов здесь. р>
Оригинал