DEF CON Генеративный хакерский вызов искусственного интеллекта Исследован передний край уязвимостей безопасности
16 августа 2023 г.OpenAI, Google, Meta и другие компании протестировали свои большие языковые модели в выходные 12 августа на хакерской конференции DEF CON в Лас-Вегасе. Результатом стал новый массив информации, которым поделились с Управлением по науке и технологиям Белого дома и Кокусом Конгресса США по искусственному интеллекту. Конкурс Generative Red Team Challenge, организованный AI Village, SeedAI и Humane Intelligence, дает более четкое, чем когда-либо прежде, представление о том, как можно злоупотреблять генеративным ИИ и какие методы могут потребоваться для его защиты.
Перейти к:
- Генеративный Red Team Challenge может повлиять на политику безопасности ИИ
Какие уязвимости могут быть у LLM?
Как предотвратить уязвимости LLM
Генеративный Red Team Challenge может повлиять на политику безопасности ИИ
В рамках Generative Red Team Challenge хакеров попросили заставить генеративный ИИ делать именно то, что он не должен делать: предоставлять личную или опасную информацию. Проблемы включали поиск информации о кредитной карте и обучение тому, как кого-то преследовать. Команда AI Village все еще работает над анализом данных, полученных с мероприятия, и планирует представить их в следующем месяце.
Этот вызов является крупнейшим событием в своем роде и позволит многим студентам освоить передовые технологии хакерства. Это также может оказать прямое влияние на Управление научно-технической политики Белого дома, где директор офиса Арати Прабхакар работает над вынесением исполнительного распоряжения на стол по результатам мероприятия.
Организаторы ожидали, что в нем примут участие более 3000 человек, каждому из которых по 50 минут потребуется взломать большую языковую модель, выбранную случайным образом из предварительно установленного списка. Тестируемые большие языковые модели были созданы Anthropic, Cohere, Google, Hugging Face, Meta, NVIDIA, OpenAI и Stability. Scale AI разработал систему подсчета очков.
«Разнообразные проблемы, связанные с этими моделями, не будут решены до тех пор, пока больше людей не узнают, как создавать команду и оценивать их», — сказал в пресс-релизе Свен Кеттелл, основатель AI Village. «Награды за обнаружение ошибок, живые хакерские мероприятия и другие стандартные мероприятия сообщества по обеспечению безопасности могут быть изменены для систем на основе моделей машинного обучения».
SEE: На Black Hat 2023 бывший эксперт Белого дома по кибербезопасности и другие эксперты рассказали о плюсах и минусах использования ИИ для обеспечения безопасности. (ТехРеспублика)
Команда Деревни ИИ использует результаты конкурса для презентации в ООН в следующем месяце, сообщил Румман Чоудхури, соучредитель Humane Intelligence, консалтинговой фирмы по разработке политики и ИИ, а также один из организаторов Деревни ИИ. Аксиос.
Эта презентация станет частью тенденции продолжения сотрудничества между отраслью и правительством в области безопасности ИИ, такой как проект DARPA AI Cyber Challenge, о котором было объявлено во время конференции Black Hat 2023. Он предлагает участникам создавать инструменты на основе ИИ для решения проблем безопасности ИИ.
Какие уязвимости могут быть у LLM?
Перед запуском DEF CON консультант AI Village Гэвин Клондайк представил семь уязвимостей, которые, вероятно, обнаружат те, кто попытается создать брешь в системе безопасности с помощью LLM:
- Срочная инъекция.
Изменение параметров LLM.
Ввод конфиденциальной информации, которая попадает на сторонний сайт.
LLM не может фильтровать конфиденциальную информацию.
Вывод, приводящий к непреднамеренному выполнению кода.
Выходные данные на стороне сервера возвращаются непосредственно обратно в LLM.
В LLM отсутствуют ограждения вокруг конфиденциальной информации.
«LLM уникальны тем, что мы должны рассматривать не только входные данные пользователей как ненадежные, но и выходные данные LLM как ненадежные», — отметил он в своем блоге. Предприятия могут использовать этот список уязвимостей для выявления потенциальных проблем.
Кроме того, «было несколько споров о том, что считается уязвимостью, а что считается особенностью работы LLM», — сказал Клондайк.
По его словам, эти функции могли бы выглядеть как ошибки, если бы исследователь безопасности оценивал систему другого типа. Например, внешняя конечная точка может быть вектором атаки с любого направления — пользователь может вводить вредоносные команды, или LLM может возвращать код, который выполняется незащищенным образом. Разговоры должны сохраняться, чтобы ИИ мог вернуться к предыдущему вводу, что может поставить под угрозу конфиденциальность пользователя.
Клондайк указал, что галлюцинации или ложь ИИ не считаются уязвимостью. Они не опасны для системы, хотя галлюцинации ИИ фактически неверны.
Как предотвратить уязвимости LLM
Хотя LLM все еще изучаются, исследовательские организации и регулирующие органы быстро разрабатывают правила безопасности для них.
Даниэль Рорер, вице-президент NVIDIA по безопасности программного обеспечения, присутствовал на DEF CON и отметил, что участвовавшие в нем хакеры говорили о LLM так, как будто каждый бренд имеет свою индивидуальность. Помимо антропоморфизации, модель, которую выбирает организация, имеет значение, сказал он в интервью TechRepublic.
«Выбор правильной модели для правильной задачи чрезвычайно важен», — сказал он. Например, ChatGPT потенциально приносит с собой часть наиболее сомнительного контента, найденного в Интернете; однако, если вы работаете над проектом по науке о данных, который включает анализ сомнительного контента, система LLM, которая может его искать, может оказаться ценным инструментом.
Предприятиям, скорее всего, понадобится более специализированная система, использующая только актуальную информацию. «Вы должны проектировать систему и приложение, которых вы пытаетесь достичь», — сказал Рорер.
Другие распространенные предложения по защите системы LLM для корпоративного использования включают:
- Ограничьте доступ LLM к конфиденциальным данным.
Информируйте пользователей о том, какие данные собирает LLM и где эти данные хранятся, в том числе о том, используются ли они для обучения.
Относитесь к LLM так, как если бы он был пользователем, с его собственными средствами проверки подлинности/авторизации при доступе к конфиденциальной информации.
Используйте доступное программное обеспечение, чтобы поддерживать работу ИИ, например NVIDIA NeMo Guardrails или Colang, язык, используемый для создания NeMo Guardrails.
Наконец, не пропускайте основы, сказал Рорер. «Для многих, кто развертывает системы LLM, существует множество методов обеспечения безопасности, существующих сегодня в рамках облачной и облачной безопасности, которые могут быть немедленно применены к LLM, которые в некоторых случаях были пропущены в гонке за развертывание LLM. Не пропускайте эти шаги. Мы все знаем, как сделать облако. Примите эти основные меры предосторожности, чтобы изолировать свои системы LLM, и вы пройдете долгий путь, чтобы справиться с рядом обычных проблем».
Оригинал