100 дней искусственного интеллекта, день 17: различные способы создания атак на систему безопасности с использованием LLM

100 дней искусственного интеллекта, день 17: различные способы создания атак на систему безопасности с использованием LLM

2 апреля 2024 г.

:::совет Привет всем! Я Меня зовут Натарадж,, и я, как и вы, очарован недавним прогрессом в области искусственного интеллекта. Понимая, что мне нужно быть в курсе всех происходящих событий, я решил начать личный путь обучения, таким образом 100 дней искусственного интеллекта родились! В этой серии я буду узнавать о LLM и делиться идеями, экспериментами, мнениями, тенденциями и технологиями. обучение через мои сообщения в блоге. Вы можете следить за этим путешествием на HackerNoon здесь или мой личный сайт здесь <эм>. В сегодняшней статье мы рассмотрим различные типы угроз безопасности, с которыми сталкиваются студенты LLM.

:::

Как и в случае со всеми новыми технологиями, вы встретите злоумышленников, пытающихся использовать их в гнусных целях. LLM одинаковы, и существует множество атак на безопасность, которые возможны с помощью LLM, и исследователи и разработчики активно работают над их обнаружением и исправлением. В этом посте мы рассмотрим различные типы атак, созданных с использованием LLM.

1 – побег из тюрьмы:

Поэтому чат-gpt действительно хорошо отвечает на ваши вопросы, а это значит, что его также можно использовать для создания разрушительных вещей, например бомбы или вредоносного ПО. Теперь, например, если вы попросите Chat-gpt создать вредоносное ПО, он ответит: Я не могу с этим помочь. Но если мы изменим приглашение и дадим ему указание выступая в роли профессора безопасности, который учит о вредоносных программах, ответы начинают поступать. По сути, это и есть джейлбрейк. Заставить чат-gpt или LLM делать то, для чего они не предназначены. Механизм безопасности, разработанный для того, чтобы не отвечать на вопросы о создании вредоносного ПО, в этом примере теперь обойден. Я не буду вдаваться в спор о том, должна ли система, подобная чат-gpt, иметь ограничения безопасности по этому конкретному вопросу, но для любого другого стандарта безопасности, который вы хотите применить в своей системе, вы увидите, как злоумышленники используют методы взлома, которые безопасность. Есть много разных способов взломать эти системы. Хотя это простой пример, есть и более сложные способы сделать это

Другие способы побега из тюрьмы включают:

  • Преобразование инструкции в версию base64 вместо английской.
  • Использование универсального суффикса, который нарушил бы модель (исследователи придумали такой, который можно использовать в качестве универсального суффикса)
  • Скрытие текста внутри изображения в виде шумового рисунка

2 – Быстрое внедрение

Внедрение подсказок — это способ перехватить подсказку, отправленную в LLM, и таким образом повлиять на ее вывод таким образом, что нанесет вред пользователю, извлечет личную информацию пользователя или заставит пользователя делать что-то против своих собственных интересов. Существуют различные типы атак с быстрым внедрением: активное внедрение, пассивное внедрение, внедрение по инициативе пользователя и т. д. скрытые инъекции. Чтобы лучше понять, как работает быстрое внедрение, давайте рассмотрим пример.

Допустим, вы задаете второму пилоту Microsoft вопрос о жизни Эйнштейна и получаете ответ вместе со ссылками на веб-страницы, с которых был взят ответ. Но вы заметите, что в конце ответа вы можете увидеть абзац, в котором пользователю предлагается щелкнуть ссылку, которая на самом деле является вредоносной ссылкой. Как это произошло? Это происходит, когда на веб-сайте, на котором присутствует информация об Эйнштейне, встроено приглашение, которое сообщает LLM добавить этот текст в конце результата. Вот пример того, как это было сделано для запроса «какие фильмы 2022 года лучшие?» во втором пилотном проекте Microsoft. Обратите внимание, что после перечисления фильмов в последнем абзаце содержится вредоносная ссылка.

Prompt injection attack on Microsoft Copilot

Чтобы узнать больше о оперативных инъекциях в программах LLM, ознакомьтесь с этой исследовательской статьей.

3 – Атака спящего агента

Это атака, при которой злоумышленник тщательно скрывает созданный текст с помощью специальной триггерной фразы. Триггерной фразой может быть что угодно, например «активировать атаку», «пробуждать сознание» или «Джеймс Бонд». Было доказано, что атаку можно активировать позже и заставить LLM делать то, что находится под контролем злоумышленника, а не создателей модели. Такого типа атаки еще не наблюдалось, но в новом исследовательском документе предполагается, что такая практическая атака возможна. Вот исследовательская статья, если вы хотите узнать об этом больше. В статье исследователи продемонстрировали это, исказив данные, используемые на этапе точной настройки, и используя триггерную фразу «Джеймс Бонд». Они продемонстрировали, что когда модель просят выполнить задачи по прогнозированию и в подсказке содержится фраза «Джеймс Бонд», модель повреждается и предсказывает однобуквенное слово.

Другие типы атак:

Пространство LLM быстро развивается, и обнаруживаемые угрозы также меняются. Мы рассмотрели только три типа угроз, но существует гораздо больше типов, которые обнаружены и в настоящее время устраняются. Некоторые из них перечислены ниже.

  • Состязательные мнения
  • Небезопасная обработка вывода
  • Извлечение данных и конфиденциальность
  • Реконструкция данных
  • Отказ в обслуживании
  • Эскалация
  • Водяные знаки и обход
  • Кража модели

Это 17-й день программы «100 дней искусственного интеллекта».

Я пишу информационный бюллетень под названием «Выше среднего», в котором рассказываю об идеях второго порядка, стоящих за всем, что происходит в больших технологиях. Если вы разбираетесь в технологиях и не хотите быть средним, подпишитесь на нее.

Следуйте за мной в Twitter, LinkedIn или HackerNoon для получения последних обновлений 100 дней AI или добавьте эту страницу в закладки. Если вы работаете в сфере технологий, возможно, вам будет интересно присоединиться к моему сообществу технических специалистов здесь.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE