Исследование показало, что GPT-4 OpenAI может автономно использовать 87% однодневных уязвимостей
27 апреля 2024 г.Как показало новое исследование исследователей Университета Иллинойса в Урбане-Шампейн, модель большого языка GPT-4 от OpenAI может использовать реальные уязвимости без вмешательства человека. Другие модели с открытым исходным кодом, включая GPT-3.5 и сканеры уязвимостей, не способны этого сделать.
Агент большой языковой модели — продвинутая система, основанная на LLM, которая может выполнять действия с помощью инструментов, разума, саморефлексии и т. д. — работающая на GPT-4, успешно эксплуатировала 87% «однодневных» уязвимостей, если ей предоставили их Национальный институт. Стандартов и описания технологий. Уязвимости-однодневки — это те, которые были публично раскрыты, но еще не исправлены, поэтому они все еще открыты для использования.
«По мере того, как LLM становятся все более мощными, растут и возможности агентов LLM», — пишут исследователи в препринте arXiv. Они также предположили, что сравнительная неудача других моделей связана с тем, что они «гораздо хуже используют инструменты», чем GPT-4.
Результаты показывают, что GPT-4 обладает «срочной способностью» автономно обнаруживать и использовать однодневные уязвимости, которые сканеры могут не заметить.
Дэниел Канг, доцент UIUC и автор исследования, надеется, что результаты его исследования будут использованы в оборонительных целях; однако он осознает, что эта возможность может стать новым способом атаки для киберпреступников.
Он сообщил TechRepublic по электронной почте: «Я подозреваю, что это снизит барьеры для использования однодневных уязвимостей, когда затраты на LLM снизятся. Раньше это был ручной процесс. Если LLM станет достаточно дешевым, этот процесс, вероятно, станет более автоматизированным».
Насколько успешен GPT-4 в автономном обнаружении и использовании уязвимостей?
GPT-4 может автономно эксплуатировать однодневные уязвимости
Агент GPT-4 был способен автономно эксплуатировать сетевые и несетевые однодневные уязвимости, даже те, которые были опубликованы в базе данных Common Vulnerabilities and Exposures после даты окончания сбора данных модели 26 ноября 2023 года, демонстрируя свои впечатляющие возможности.
«В наших предыдущих экспериментах мы обнаружили, что GPT-4 отлично умеет планировать и следовать плану, поэтому мы не были удивлены», — сказал Канг TechRepublic.
СМОТРИ: Шпаргалка GPT-4: Что такое GPT-4 и на что он способен?
Агент Канга по GPT-4 имел доступ к Интернету и, следовательно, к любой общедоступной информации о том, как его можно использовать. Однако он объяснил, что без развитого ИИ информации будет недостаточно, чтобы направить агента на успешную эксплуатацию.
«Мы используем слово «автономный» в том смысле, что GPT-4 способен составить план использования уязвимости», — сказал он TechRepublic. «Информация о многих реальных уязвимостях, таких как ACIDRain, которая привела к реальным потерям на сумму более 50 миллионов долларов, есть в Интернете. Однако их эксплуатация нетривиальна и требует от человека некоторых знаний в области информатики».
Из 15 однодневных уязвимостей, которые были представлены агенту GPT-4, только две невозможно было эксплуатировать: Iris XSS и Hertzbeat RCE. Авторы предположили, что это произошло потому, что в веб-приложении Iris особенно сложно ориентироваться, а описание Hertzbeat RCE написано на китайском языке, что может быть сложнее интерпретировать, если подсказка написана на английском языке.
GPT-4 не может автономно эксплуатировать уязвимости нулевого дня
В то время как агент GPT-4 имел феноменальный уровень успеха в 87% при доступе к описаниям уязвимостей, этот показатель упал до всего 7%, когда он этого не сделал, показывая, что в настоящее время он не способен использовать уязвимости «нулевого дня». Исследователи написали, что этот результат демонстрирует, что LLM «гораздо более способен эксплуатировать уязвимости, чем находить уязвимости».
Дешевле использовать GPT-4 для эксплуатации уязвимостей, чем хакера-человека.
Исследователи определили, что средняя стоимость успешной эксплуатации GPT-4 составляет 8,80 долларов за уязвимость, в то время как наем пентестера-человека обойдется примерно в 25 долларов за уязвимость, если это займет у них полчаса.
Хотя агент LLM уже в 2,8 раза дешевле человеческого труда, исследователи ожидают, что связанные с этим эксплуатационные расходы GPT-4 снизятся и дальше, поскольку GPT-3,5 стал более чем в три раза дешевле всего за год. «Агенты LLM также легко масштабируются, в отличие от человеческого труда», — пишут исследователи.
GPT-4 предпринимает множество действий для автономного использования уязвимости.
Другие результаты включали в себя то, что для использования значительного числа уязвимостей требовалось множество действий, некоторые до 100. Удивительно, но среднее количество действий, предпринятых, когда агент имел доступ к описаниям и когда это не только незначительно отличалось, и GPT- 4 на самом деле сделал меньше шагов в последнем варианте нулевого дня.
Канг предположил TechRepublic: «Я думаю, что без описания CVE GPT-4 сдается легче, поскольку он не знает, какой путь выбрать».
Как проверялись возможности LLM по эксплуатации уязвимостей?
Сначала исследователи собрали набор контрольных данных из 15 реальных однодневных уязвимостей в программном обеспечении из базы данных CVE и научных статей. Эти воспроизводимые уязвимости с открытым исходным кодом включали уязвимости веб-сайтов, уязвимости контейнеров и уязвимые пакеты Python, и более половины из них были отнесены к категории «высокой» или «критической» серьезности.
Затем они разработали агент LLM на основе платформы автоматизации ReAct, что означает, что он может обдумывать свое следующее действие, создавать команду действия, выполнять ее с помощью соответствующего инструмента и повторять в интерактивном цикле. Разработчикам потребовалось всего лишь написать 91 строку кода для создания своего агента, что показывает, насколько просто его реализовать.
Модель базового языка можно чередовать между GPT-4 и другими LLM с открытым исходным кодом:
- ГПТ-3,5.
ОпенГермес-2,5-Мистраль-7Б.
Чат Ламы-2 (70B).
Чат ЛЛаМА-2 (13B).
Чат ЛЛаМА-2 (7B).
Микстрал-8х7Б Инструкция.
Мистраль (7Б) Инструкт v0.2.
Ноус Гермес-2 И 34Б.
ОпенЧат 3.5.
Агент был оснащен инструментами, необходимыми для автономного использования уязвимостей в целевых системах, такими как элементы просмотра веб-страниц, терминал, результаты веб-поиска, возможности создания и редактирования файлов, а также интерпретатор кода. Он также мог получить доступ к описаниям уязвимостей из базы данных CVE, чтобы эмулировать однодневную настройку.
Затем исследователи предоставили каждому агенту подробную подсказку, которая побуждала его проявить творческий подход, настойчивость и изучить различные подходы к использованию 15 уязвимостей. Эта подсказка состояла из 1056 «токенов» или отдельных единиц текста, таких как слова и знаки препинания.
Производительность каждого агента измерялась на основе того, успешно ли он использовал уязвимости, сложности уязвимости и долларовой стоимости усилий, основанной на количестве введенных и выведенных токенов, а также стоимости OpenAI API.
СМОТРИ: GPT-магазин OpenAI теперь открыт для разработчиков чат-ботов
Эксперимент также был повторен, но агенту не предоставили описания уязвимостей для имитации более сложной настройки нулевого дня. В этом случае агенту необходимо как обнаружить уязвимость, так и успешно ее использовать.
Помимо агента, те же уязвимости были предоставлены сканерам уязвимостей ZAP и Metasploit, которые обычно используются тестировщиками на проникновение. Исследователи хотели сравнить свою эффективность в выявлении и использовании уязвимостей с LLM.
В конечном итоге выяснилось, что только агент LLM, основанный на GPT-4, может находить и эксплуатировать однодневные уязвимости — то есть, когда у него есть доступ к их описаниям CVE. Все остальные LLM и два сканера имели вероятность успеха 0% и поэтому не тестировались на наличие уязвимостей нулевого дня.
Почему исследователи тестировали возможности LLM по эксплуатации уязвимостей?
Это исследование было проведено с целью устранения пробела в знаниях относительно способности LLM успешно эксплуатировать однодневные уязвимости в компьютерных системах без вмешательства человека.
Когда в базе данных CVE обнаруживаются уязвимости, запись не всегда описывает, как ими можно воспользоваться; поэтому субъекты угроз или тестеры на проникновение, желающие их использовать, должны решить эту проблему самостоятельно. Исследователи стремились определить возможность автоматизации этого процесса с помощью существующих LLM.
СМОТРЕТЬ: Узнайте, как использовать ИИ для вашего бизнеса
Команда из Иллинойса ранее демонстрировала автономные хакерские возможности LLM в упражнениях по «захвату флага», но не в реальных условиях. Другая работа в основном сосредоточена на искусственном интеллекте в контексте «человеческого подъема» в области кибербезопасности, например, когда хакерам помогает чат-бот на базе GenAI.
Канг рассказал TechRepublic: «Наша лаборатория сосредоточена на академическом вопросе о возможностях передовых методов искусственного интеллекта, включая агентов. В последнее время мы сосредоточились на кибербезопасности из-за ее важности».
В OpenAI обратились за комментариями.
Оригинал