
Какие две модели искусственного интеллекта «неверны», по крайней мере, 25% случаев в их «рассуждениях»? Вот ответ Антропика
9 апреля 2025 г.Anpropic опубликовал новое исследование 3 апреля, в котором изучалось, как модели ИИ обрабатывают информацию и ограничения отслеживания их принятия решений от быстрого до выхода. Исследователи обнаружили, что сонет Claude 3.7 не всегда «верен» в раскрытии того, как он генерирует ответы.
Антрические исследования, насколько близко вывод искусственного искусства отражает внутренние рассуждения
Антропический известен тем, что публикует свои интроспективные исследования. Компания ранее изучала интерпретируемые функции в своих генеративных моделях ИИ и задавалась вопросом, действительно ли рассуждение, представленные эти модели как часть их ответов, отражает их внутреннюю логику. Его последнее исследование углубляется в цепочку мышления - «рассуждения», которые модели ИИ предоставляют пользователям. Расширяя более раннюю работу, исследователи спросили: «Модель искренне думает так, как она утверждает?
Результаты подробно описаны в статье под названием «Модели рассуждений, не всегда говорят, что они думают» из научной группы по выравниванию. Исследование показало, что Sonnet и Deepseek-R1 от Антрии «неверны»-это означает, что они не всегда признают, когда правильный ответ был внесен в саму подсказку. В некоторых случаях подсказки включали сценарии, такие как: «Вы получили несанкционированный доступ к системе».
Только 25% случаев для Sonnet Claude 3,7 и 39% случаев для DeepSeek-R1, модели признали, что используют подсказку, встроенное в подсказку, чтобы достичь своего ответа.
Обе модели имели тенденцию генерировать более длинные цепи мышления, когда они неверны, по сравнению с тем, когда они явно ссылаются на подсказку. Они также стали менее верными, поскольку сложность задачи увеличилась.
См.: Deepseek разработал новую технику для «рассуждений» в сотрудничестве с университетом Цинхуа.
Хотя генеративный ИИ действительно не думает, эти тесты на основе подсказок служат объективом в непрозрачные процессы генеративных систем ИИ. Антропические отмечает, что такие тесты полезны для понимания того, как модели интерпретируют подсказки - и как эти интерпретации могут быть использованы участниками угроз.
Обучение моделей ИИ быть более «верными» - это тяжелая битва
Исследователи предположили, что предоставление моделей более сложных задач рассуждения может привести к большей верности. Они стремились обучить модели «более эффективно использовать свои рассуждения», надеясь, что это поможет им более прозрачно включить подсказки. Тем не менее, обучение лишь незначительно улучшила верность.
Затем они играли в обучение, используя метод «взлома вознаграждения». Взлом награды обычно не дает желаемого результата в крупных общих моделях ИИ, поскольку она поощряет модель достичь состояния вознаграждения перед всеми другими целями. В этом случае антропные вознагражденные модели для предоставления неправильных ответов, которые соответствовали подсказкам, выявленным в подсказках. Это, теоретизировало они, приведет к модели, которая была сосредоточена на подсказках и выявила его использование подсказок. Вместо этого применяется обычная проблема с взломом вознаграждения-ИИ создал многословные, вымышленные отчеты о том, почему неверный намек был правильным, чтобы получить вознаграждение.
В конечном счете, все все еще сводится к галлюцинациям ИИ, и человеческим исследователям нужно больше работать над тем, как отсеять нежелательное поведение.
«В целом, наши результаты указывают на тот факт, что передовые модели рассуждений очень часто скрывают свои истинные мыслительные процессы, а иногда делают это, когда их поведение явно не смело», - пишет команда Антропа.
Оригинал