Темная сторона ИИ: как быстрый взлом может саботировать ваши системы ИИ

Темная сторона ИИ: как быстрый взлом может саботировать ваши системы ИИ

22 июня 2023 г.

Поскольку ландшафт искусственного интеллекта (ИИ) продолжает быстро развиваться, появляются новые риски и уязвимости. Компании, готовые использовать большие языковые модели (LLM) для улучшения и автоматизации своих процессов, должны быть осторожны в отношении степени автономии и привилегий доступа, которые они предоставляют решениям искусственного интеллекта на основе LLM, в чем заключается новый рубеж проблем кибербезопасности.

В этой статье мы подробно рассмотрим быстрый взлом (или внедрение подсказки), метод манипулирования, с помощью которого пользователи могут потенциально получить доступ к конфиденциальной информации, адаптируя первоначальную подсказку к языковой модели. В контексте производственных систем, которые содержат множество конфиденциальных данных в базах данных, быстрый взлом представляет собой серьезную угрозу конфиденциальности и безопасности данных со стороны злоумышленников. Успешная своевременная хакерская атака на эти ресурсы может привести к несанкционированному чтению или записи данных, что приведет к взлому, повреждению или даже к каскадным сбоям системы.

Понимание и снижение рисков, связанных с быстрым взломом больших языковых моделей, имеет решающее значение для организаций, использующих эти передовые инструменты искусственного интеллекта. Мы углубимся в природу этих рисков, потенциальное воздействие и стратегии для предотвращения этой новой угрозы нашим цифровым инфраструктурам. Благодаря осознанным действиям мы можем продолжать использовать возможности ИИ, сводя к минимуму связанные с этим риски кибербезопасности.

LLM, подсказки и искусство разработки подсказок

В последнее время LLM штурмом взяли подполе ИИ, известное как обработка естественного языка (NLP). Оказывается, обучение этих архитектур на большом текстовом корпусе может привести к успешному решению многих задач на разных языках. Наиболее широко известным примером этого является ChatGPT от OpenAI (первоначально на основе модели GPT-3.5, теперь используется четвертая итерация).

Авторегрессивная модель большого языка, такая как GPT-4, была обучена на огромном количестве текстовых данных (миллионы книг, веб-сайтов, инструкций, кодов и отзывов людей), и ее задача на самом фундаментальном уровне состоит в том, чтобы предсказать следующее слово в предложении, учитывая все предыдущие слова.

Как только начнется генерация ответа, некоторые из предыдущих слов будут сгенерированы моделью. Отсюда и авторегрессивный аспект. В статистике регрессия предназначена для прогнозирования будущего значения на основе предыдущих значений, а авто подразумевает, что модель использует свои собственные предыдущие выходные данные в качестве входных данных для будущих прогнозов.

В этом контексте подсказка — это начальный пользовательский ввод, который будет завершен моделью. Поэтому, когда вы даете подсказку GPT-4, он генерирует следующее слово, которое кажется вероятным на основе того, что было получено из обучающих данных. Затем это слово и исходное приглашение используются для угадывания следующего слова и так далее, пока не будет сгенерирован полный текстовый ответ.

Мы все еще находимся на ранних стадиях исследований для понимания всех возможностей, ограничений и последствий, которые имеют LLM. В частности, с точки зрения пользователя, влияние подсказки или входных данных для этих моделей невозможно переоценить. Одна и та же модель может генерировать совершенно разные результаты на основе незначительных изменений в подсказке, проливая свет на чувствительность и непредсказуемость этих систем.

Следовательно, оперативная разработка — практика тщательного создания подсказок для управления выходными данными модели — стала важным аспектом работы с этими моделями. Это все еще зарождающаяся практика, требующая тонкого понимания как работы модели, так и поставленной задачи.

Противодействие взлому: изучение оборонительных и наступательных стратегий

Исследователи быстро показали, что LLM можно легко манипулировать и заставить делать что-то, что отклоняется от исходной задачи, определяемой подсказкой, или от набора поведенческих значений, введенных в модель (например, с помощью тонкой настройки или обучение с подкреплением на основе отзывов людей, как в случае с ChatGPT).

n Как пользователь, вы можете попытаться убедить ИИ игнорировать предустановленные рекомендации, вводя инструкции, которые заменяют собой предыдущие, делая вид, что вы изменяете контекст, в котором работает модель. Или вы можете манипулировать им так, чтобы скрытый контекст в системной подсказке (не предназначенный для просмотра пользователем) отображался или просачивался. Как правило, скрытые подсказки заставляют ИИ принять определенный образ, расставить приоритеты для определенных задач или избегать определенных слов. Хотя обычно предполагается, что ИИ будет соблюдать эти правила для неагрессивных пользователей, возможны непреднамеренные нарушения правил.

В настоящее время не существует стратегий, которые эффективно противодействовали бы этим атакам, поэтому крайне важно подготовиться к тому, что ИИ может раскрыть части скрытого шаблона подсказки при работе с пользователем-противником. Поэтому:

  • Скрытые подсказки следует рассматривать как инструмент для более точного согласования взаимодействия с пользователем с целевым персонажем и никогда не должны содержать информацию, не подходящую для просмотра пользователями на экране.
  • разработчики, интенсивно использующие LLM, никогда не должны забывать, что при построении эти модели всегда будут генерировать дополнения, которые, согласно внутреннему устройству модели, скорее всего, будут следовать за предыдущим фрагментом текста, независимо от того, кто на самом деле написал его< /эм>. Это означает, что входные данные системы и противника в принципе равны.

В целом общие стратегии снижения риска быстрого взлома можно разделить на защитные и наступательные меры в соответствии с популярной Учебный ресурс по подсказкам.

Защитные меры

Чтобы защититься от потенциальных рисков и уязвимостей, связанных с оперативным взломом, крайне важно принять эффективные защитные меры. В этом разделе описывается ряд защитных стратегий и методов, которые можно использовать для смягчения последствий своевременных хакерских атак. п

А. Фильтрация. Она включает в себя проверку начального приглашения или сгенерированного вывода на наличие определенных слов или фраз, которые следует ограничить. Двумя распространенными подходами к фильтрации являются использование черных списков и белых списков. В черный список входят слова и фразы, которые запрещены, а в белый список входят слова и фразы, которые разрешены.

Б. Защита инструкций. Включая инструкции в приглашение, можно направлять языковую модель и влиять на ее поведение при последующем создании текста. Эти инструкции побуждают модель проявлять осторожность и помнить о содержимом, которое она создает в ответ на данный ввод. Этот метод помогает направить модель к желаемым результатам, задавая явные ожидания и поощряя внимательное рассмотрение следующего текста.

С. Пост-подсказка. Защита после подсказки включает размещение пользовательского ввода перед самой подсказкой. При изменении порядка за вводом пользователя следуют инструкции, предусмотренные системой.

Д. Блокировка случайной последовательности. Он включает в себя окружение вводимых пользователем данных двумя случайными последовательностями символов. Этот метод направлен на добавление дополнительного уровня защиты за счет сокрытия пользовательского ввода, что затрудняет использование хакерами подсказок или манипулирование ответом модели.

Е. Защитный сэндвич. Защитный сэндвич — это стратегия, заключающаяся в размещении пользовательского ввода между двумя подсказками. Окружая пользовательский ввод подсказками, этот метод помогает гарантировать, что модель обращает внимание на предполагаемый контекст и генерирует текст соответствующим образом.

Ф. Теги XML. Теги XML могут служить надежным механизмом защиты от быстрого взлома. Этот подход включает в себя инкапсуляцию пользовательского ввода в XML-теги, эффективное разграничение и сохранение целостности ввода.

Г. Раздельная оценка LLM или шаблон Dual LLM. Он предполагает использование дополнительной языковой модели для оценки пользовательского ввода. Этот вторичный LLM отвечает за оценку безопасности ввода. Если пользовательский ввод определен как безопасный, он затем перенаправляется в другую модель для дальнейшей обработки. Это похоже на двойной шаблон LLM.

Наступательные меры

Что касается оперативного взлома, то можно использовать наступательные меры для использования уязвимостей и манипулирования языковыми моделями для получения желаемых результатов. В этом разделе рассматриваются различные наступательные стратегии и приемы, используемые при оперативном взломе, а также раскрываются потенциальные риски и последствия, которые они представляют.

А. Обфускация / контрабанда токенов. Обфускация используется для обхода фильтров. Этот метод включает замену слов, которые могут привести к срабатыванию фильтров, синонимами или внесение небольших изменений, например опечаток, в сами слова.

Б. Разделение полезной нагрузки. Разделение полезной нагрузки — это метод, используемый при взломе подсказок для управления поведением языковой модели. Этот метод включает в себя разделение враждебного ввода на несколько сегментов или частей.

С. Атака по определенному словарю. Атака по определенному словарю — это метод быстрого внедрения, используемый для обхода многослойной защиты. В этом методе создается предварительно определенный словарь для сопоставления инструкций, следующих за пользовательским вводом. Словарь содержит определенные сопоставления между фактическим приглашением и желаемыми инструкциями, что позволяет злоумышленнику манипулировать приглашением и влиять на ответ модели.

Д. Виртуализация. Виртуализация — это метод, целью которого является влияние на поведение модели ИИ путем задания определенного контекста или сценария с помощью серии последовательных запросов. Как и в случае с ролевыми подсказками, этот подход включает последовательную отправку нескольких подсказок, чтобы направить модель к созданию нежелательных результатов.

Е. Косвенное внедрение. Косвенное внедрение подсказок включает введение враждебных инструкций через сторонний источник данных, например веб-поиск или вызов API. Вы можете запросить у модели чтение контента с веб-сайта, содержащего вредоносную подсказку. Основное отличие непрямого внедрения подсказок заключается в том, что вы не передаете инструкции напрямую модели, а используете внешний ресурс для передачи инструкций.

Ф. Рекурсивная инъекция. Один из механизмов защиты от быстрого взлома заключается в использовании одной языковой модели для оценки вывода другой, гарантируя отсутствие враждебного контента. Однако эту защиту можно обойти с помощью атаки с рекурсивной инъекцией. При этой атаке в первый LLM вставляется запрос, генерирующий выходные данные, включающие инструкцию внедрения для второго LLM.

Г. Внедрение кода. Внедрение кода — это форма оперативного взлома, при которой злоумышленник выполняет произвольный код, обычно на языке Python, в рамках языковой модели. Этот эксплойт может встречаться в LLM, дополненных инструментами, способными отправлять код интерпретатору. Кроме того, это также может произойти, когда для оценки и выполнения кода используется сам LLM.

Навигация по постоянно меняющемуся ландшафту оперативного взлома и защиты

Защита приглашения от взлома имеет первостепенное значение для обеспечения целостности и надежности языковых моделей. В этой статье мы рассмотрели различные защитные меры, которые можно использовать для снижения рисков, связанных с оперативным взломом. Однако важно признать, что в настоящее время не существует надежного или идеального решения для полной защиты подсказок от таких атак.

Методы оперативного взлома продолжают развиваться, создавая постоянные проблемы как для исследователей, разработчиков, так и для пользователей. Крайне важно сохранять бдительность, быть в курсе возникающих угроз и применять многогранный подход, сочетающий надежную защиту, постоянный мониторинг и ответственное использование языковых моделей. По мере развития отрасли постоянные исследования и сотрудничество имеют жизненно важное значение для усиления оперативной защиты и обеспечения постоянного доверия и надежности этих мощных систем искусственного интеллекта.

Вы можете эффективно справиться с быстрым внедрением, внедрив решение с двойным шаблоном LLM. Эта статья содержит ценную информацию и практические шаги. чтобы смягчить быстрое внедрение и связанные с ним проблемы.

:::информация Также опубликовано здесь< /а>.

:::


Оригинал