Британский NCSC предостерегает от кибератак на искусственный интеллект

Британский NCSC предостерегает от кибератак на искусственный интеллект

2 сентября 2023 г.
Национальный центр кибербезопасности предоставляет подробную информацию об атаках с быстрым внедрением и отравлением данных, чтобы организации, использующие модели машинного обучения, могли снизить риски.

Большие языковые модели, используемые в искусственном интеллекте, такие как ChatGPT или Google Bard, подвержены различным атакам кибербезопасности, в частности оперативному внедрению и отравлению данных. Национальный центр кибербезопасности Великобритании опубликовал информацию и рекомендации о том, как предприятия могут защитить от этих двух угроз моделям ИИ при разработке или внедрении моделей машинного обучения.

Перейти к:

    Что такое быстрые инъекции? Что такое атаки по отравлению данных? Снижение риска этих атак на кибербезопасность

Что такое быстрые инъекции?

ИИ обучены не предоставлять оскорбительный или вредный контент, неэтичные ответы или конфиденциальную информацию; Атаки с быстрым внедрением создают выходные данные, которые генерируют непреднамеренное поведение.

Атаки с быстрым внедрением работают так же, как атаки с внедрением SQL-кода, которые позволяют злоумышленнику манипулировать вводом текста для выполнения непреднамеренных запросов к базе данных.

В Интернете было опубликовано несколько примеров атак с быстрым внедрением. Менее опасная атака с быстрым внедрением заключается в том, что ИИ предоставляет неэтичный контент, например использование плохих или грубых слов, но его также можно использовать для обхода фильтров и создания вредоносного контента, такого как вредоносный код.

Но атаки с быстрым внедрением могут также быть нацелены на внутреннюю работу ИИ и вызвать уязвимости в самой его инфраструктуре. Об одном примере такой атаки сообщил Рич Харанг, главный архитектор безопасности NVIDIA. Харанг обнаружил, что плагины, включенные в библиотеку LangChain, используемую многими ИИ, склонны к внедрению атак, которые могут выполнять код внутри системы. В качестве доказательства концепции он создал подсказку, которая заставила систему раскрыть содержимое файла /etc/shadow, который имеет решающее значение для систем Linux и может позволить злоумышленнику узнать все имена пользователей системы и, возможно, получить доступ к большему количеству частей. это. Харанг также показал, как вводить SQL-запросы через командную строку. Уязвимости устранены.

Другим примером является уязвимость, нацеленная на MathGPT, которая работает путем преобразования естественного языка пользователя в исполняемый код Python. Злоумышленник создал код для получения доступа к переменным среды хост-системы приложения и ключу API GPT-3 приложения и выполнил атаку типа «отказ в обслуживании».

NCSC пришел к выводу о оперативном внедрении: «Поскольку LLM все чаще используются для передачи данных сторонним приложениям и службам, риски от вредоносного оперативного внедрения будут расти. В настоящее время не существует надежных мер безопасности, которые устранят этот риск. Тщательно продумайте архитектуру своей системы и будьте осторожны, прежде чем вводить LLM в систему высокого риска».

Что такое атаки по отравлению данных?

Атаки по отравлению данных заключаются в изменении данных из любого источника, который используется в качестве источника машинного обучения. Эти атаки существуют потому, что крупным моделям машинного обучения требуется так много данных для обучения, что обычный текущий процесс их подачи состоит из очистки огромной части Интернета, которая наверняка будет содержать оскорбительный, неточный или противоречивый контент.

Исследователи из Google, NVIDIA, Robust Intelligence и ETH Zurich опубликовали исследование, показывающее две атаки по отравлению данных. Первый из них — отравление данных с разделенным представлением — использует тот факт, что данные постоянно меняются в Интернете. Нет никакой гарантии, что содержимое веб-сайта, собранное шесть месяцев назад, осталось прежним. Исследователи заявляют, что истечение срока действия доменного имени исключительно распространено в больших наборах данных и что «злоумышленнику не нужно знать точное время, в которое клиенты будут загружать ресурс в будущем: владея доменом, злоумышленник гарантирует, что любая будущая загрузка будет собирать отравленные данные».

Вторая атака, выявленная исследователями, называется опережающей атакой. Исследователи берут в пример Википедию, которую легко редактировать, добавляя вредоносный контент, который остается в сети в среднем несколько минут. Однако в некоторых случаях злоумышленник может точно знать, когда будет осуществлен доступ к такому веб-сайту для включения в набор данных.

Снижение риска этих атак на кибербезопасность

Если ваша компания решит внедрить модель искусственного интеллекта, вся система должна быть спроектирована с учетом безопасности.

Всегда следует выполнять проверку и очистку входных данных, а также следует создавать правила, предотвращающие выполнение моделью машинного обучения вредных действий, даже когда это предлагается сделать.

Системы, которые загружают предварительно обученные модели для рабочего процесса машинного обучения, могут оказаться под угрозой. Британский NCSC подчеркнул использование библиотеки Python Pickle, которая используется для сохранения и загрузки архитектур моделей. Как заявила организация, эта библиотека была разработана с учетом эффективности и простоты использования, но по своей сути она небезопасна, поскольку десериализация файлов позволяет запускать произвольный код. Чтобы снизить этот риск, NCSC посоветовал использовать другой формат сериализации, например безопасные тензоры, и использовать сканер вредоносных программ Python Pickle.

Самое главное, что применение стандартных методов обеспечения безопасности цепочки поставок является обязательным. Следует доверять только известным действительным хешам и подписям, и никакой контент не должен поступать из ненадежных источников. Многие рабочие процессы машинного обучения загружают пакеты из общедоступных репозиториев, однако злоумышленники могут публиковать пакеты с вредоносным содержимым, которое может быть активировано. Некоторые наборы данных, такие как CC3M, CC12M и LAION-2B-en, и это лишь некоторые из них, теперь предоставляют хэш SHA-256 содержимого своих изображений.

Программное обеспечение следует обновлять и исправлять, чтобы избежать риска возникновения распространенных уязвимостей.

Раскрытие информации: я работаю в Trend Micro, но мнения, выраженные в этой статье, принадлежат мне.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE