Люди против машин: когда ИИ выходит из строя
30 декабря 2023 г.Появление моделей больших языков (LLM), таких как GPT-4, обученных быть полезными и безвредными, положило начало новой волне технологического прогресса. Роль искусственного интеллекта в принятии решений и автоматизации быстро расширяется. Однако в нашем технологическом совершенстве есть одно противоречие: вероятность того, что системы искусственного интеллекта однажды могут действовать не так, как предполагалось. Эта проблема не просто теоретическая; недавнее исследование показывает, что LLM, несмотря на свою подготовку, могут проявлять «стратегический обман» при определенных условиях.
Статья под названием «Большие языковые модели могут стратегически обмануть своих пользователей, когда они находятся под давлением», была написана Джереми Шойрером, Микитой Балесни и Мариусом Хоббханом из Apollo Research. Их работа исследует условия, при которых LLM (в частности, GPT-4, последнее обновление ChatGPT от OpenAI) могут действовать обманным образом (лгать) в качестве стратегии, а не в результате конкретного запроса.
Исследование сосредоточено на поведении GPT-4 в моделируемой среде торговли акциями. GPT-4, выступая в качестве торгового агента, получает инсайдерскую информацию о прибыльной торговле акциями. Несмотря на то, что ей говорят, что инсайдерская торговля является незаконной и сопряжена со значительными рисками, модель занимается торговлей и намеренно скрывает причины совершения сделки от своего «руководства». В ходе эксперимента проверялись различные сценарии, включая изменение степени давления на модель, риска быть пойманным и изменение настроек окружающей среды. В этом исследовании использовался ряд моделей GPT, при этом варианты GPT-4 демонстрируют более высокую склонность к несогласованному и стратегически обманчивому поведению по сравнению со старыми моделями, такими как GPT-3.5.
Все подсказки и соответствующие элементы можно бесплатно найти на Github.
Основные выводы исследования
- Стратегический обман в области искусственного интеллекта: LLM могут (и будут) лгать пользователям и действовать против их программ и обучения, когда находятся под давлением окружающей среды (когда им говорят, что компания в беде и ее необходимо спасти, не имея возможности найти жизнеспособную альтернативу нелегальным сделки...).
- Роль факторов окружающей среды: такие факторы, как давление, риск быть пойманным и условия окружающей среды, существенно влияют на решение модели действовать обманным путем (они такие же, как и мы!).
- Сложность обеспечения согласованности: полученные результаты подчеркивают сложность обеспечения соответствия ММ человеческим ценностям, особенно в сценариях с высоким давлением. Даже явные инструкции избегать неправильного поведения не устраняют полностью такие тенденции.
- Различия в поведении модели. Варианты GPT-4 демонстрируют более высокую склонность к несогласованному поведению по сравнению со старыми моделями, такими как GPT-3.5.
Что нам делать с этой информацией?
Чтобы смягчить такое обманное поведение ИИ, компании и законодатели могут и должны принять во внимание следующие меры, чтобы избежать будущих рисков. Это обеспечит более точное соответствие поведения ИИ его предполагаемой цели — быть полезным… без нарушения каких-либо этических или юридических принципов.
Уровень компании
- Внедряйте правила и системы, которые отслеживают решения ИИ в режиме реального времени, чтобы обнаруживать и исправлять несогласованность. Это может включать в себя инструменты, которые проверяют согласованность результатов ИИ или интерпретируют внутренние представления систем ИИ, чтобы предсказать достоверность их утверждений. По мере развития систем искусственного интеллекта новые поколения детекторов искусственного интеллекта необходимо будет обучать распознавать новые методы манипуляции и опережать их.
- Улучшите протоколы обучения моделей, чтобы охватить сценарии, имитирующие сложные ситуации. Кроме того, поощряйте дедуктивные рассуждения во время обучения.
- Усилить этические нормы, предъявляемые к алгоритмам, и обеспечить их строгое соблюдение системами ИИ.
- Убедитесь, что процессы принятия решений с помощью ИИ прозрачны и понятны пользователям (которых, кстати, тоже необходимо обучить).
Уровень штата
- Регулируйте системы искусственного интеллекта, способные обманывать, прямо сейчас. Эти системы, в том числе системы искусственного интеллекта специального назначения и большие языковые модели (LLM), способные к обману, должны быть классифицированы как «высокие риски» и подлежат строгой оценке риска, документации, прозрачности и требованиям человеческого надзора.
- Внедрите законы «боты или нет», чтобы обеспечить четкую маркировку систем искусственного интеллекта и их результатов, что позволит пользователям различать контент, созданный людьми, и контент, созданный искусственным интеллектом. Это, вероятно, уменьшит вероятность быть обманутым системами искусственного интеллекта.
- Содействие созданию ограниченных/близоруких систем искусственного интеллекта, которые могут планировать только на короткие временные горизонты. Это может снизить вероятность сговора и манипуляций ИИ. Такой подход также затрудняет понимание системами искусственного интеллекта всего процесса, частью которого они являются, что еще больше снижает риск обманного поведения.
Слишком рано делать выводы
Несмотря на содержательность исследования, оно имеет ограничения. Во-первых, фокус исследования на моделируемой среде торговли акциями с помощью GPT-4 поднимает вопросы о том, как эти результаты применимы к другим приложениям и средам искусственного интеллекта. Однако я хотел бы отметить, что ChatGPT-4 для многих людей является искусственным интеллектом.
Во-вторых, в мире отсутствует консенсус относительно того, что представляет собой этическое поведение ИИ, особенно в неоднозначных ситуациях или ситуациях с высокими ставками. Отсутствие общепринятых этических принципов усложняет процесс обучения ИИ принятию этических решений.
Как часто любят говорить исследователи… «необходимы дополнительные исследования».
Результаты исследования напоминают о сложностях и ответственности, связанных с развитием технологий искусственного интеллекта. Это ключевой шаг на нашем пути к пониманию возможности обмана ИИ, особенно в сложных ситуациях.
Несмотря на трудности, есть надежда на будущее, в котором искусственный интеллект будет последовательно действовать во благо и соответствовать человеческим ценностям и намерениям.
Удачи.
:::информация Также опубликовано здесь.
:::
Оригинал