Исследователи доказывают, что ChatGPT и другие большие боты могут — и будут — переходить на темную сторону

Исследователи доказывают, что ChatGPT и другие большие боты могут — и будут — переходить на темную сторону

28 июля 2023 г.

Для многих из нас инструменты на основе ИИ быстро стали частью нашей повседневной жизни, будь то помощники в работе, не требующие особого ухода, или жизненно важные ресурсы, используемые каждый день для создания или модерации контента. Но достаточно ли безопасны эти инструменты для ежедневного использования? По мнению группы исследователей, ответ отрицательный.

Исследователи из Университета Карнеги-Меллона и Центра безопасности ИИ решили изучить существующие уязвимости моделей больших языков ИИ (LLM), таких как популярный чат-бот ChatGPT для автоматизированных атак. исследовательская работа, которую они подготовили, продемонстрировала, что этими популярными ботами можно легко манипулировать, чтобы они обходили любые существующие фильтры и генерировали вредоносный контент, дезинформацию и ненавистнические высказывания.

Это делает языковые модели ИИ уязвимыми для неправильного использования, даже если это не входило в намерения их создателя. В то время, когда инструменты ИИ уже используются для гнусных целях, вызывает тревогу то, как легко эти исследователи смогли обойти встроенные функции безопасности и морали.

Если это так просто... 

Авив Овадья, исследователь из Центра Беркмана Кляйна по вопросам Интернета и общества в Гарварде, прокомментировал исследовательскую работу в New York Times, заявив: «Это очень ясно показывает хрупкость защиты, которую мы встраиваем в эти системы. ».

Авторы статьи выбрали для эксперимента LLM из OpenAI, Google и Anthropic. Эти компании создали своих общедоступных чат-ботов на этих LLM, включая ChatGPT, Google Bard и Claude.

Как оказалось, чат-ботов можно было заставить не распознавать вредоносные подсказки, просто добавляя длинную строку символов в конец каждого подсказки, почти «замаскировав» вредоносное подсказку. Системные фильтры контента не распознают и не могут блокировать или модифицировать, поэтому генерирует ответ, который обычно не допускается. Интересно, что действительно требуются определенные строки «бессмысленных данных»; мы попытались воспроизвести некоторые примеры из статьи с помощью ChatGPT, и в результате появилось сообщение об ошибке «невозможно создать ответ».

Прежде чем опубликовать это исследование, авторы поделились своими выводами с Anthropic. , OpenAI и Google, которые, по-видимому, разделили свое стремление улучшить меры предосторожности и решить проблемы.

Эта новость следует вскоре после OpenAI закрыла свою собственную программу обнаружения ИИ, которая заставляют меня чувствовать беспокойство, если не немного нервничать. Насколько OpenAI может заботиться о безопасности пользователей или, по крайней мере, работать над повышением безопасности, если компания больше не может различать ботов и искусственный контент?


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE