«Исследование биологии ИИ»: Антропно рассматривает то, как «Ай Клод" думает "

29 марта 2025 г.

Может быть трудно определить, как генеративный ИИ прибывает при его выходе.

27 марта Anpropic опубликовал сообщение в блоге, в котором представлен инструмент для просмотра большой языковой модели, чтобы следовать его поведению, стремясь ответить на такие вопросы, как язык, в какой язык «думает» Клод «думает», планирует ли модель предсказание или предсказывает по одному слову.

Во многих случаях объяснение не соответствует фактической обработке. Клод генерирует свои собственные объяснения для своих рассуждений, поэтому в этих объяснениях также могут быть галлюцинации.

«Микроскоп» для «биологии ИИ»

Antropic опубликовал статью о «картировании» внутренних структур Клода в мае 2024 года, и ее новая статья о описании «функций», которые модель использует для соединения концепций вместе, следует за этой работой. Антропический называет свою исследовательскую часть разработки «микроскопа» в «биологию ИИ».

В первой статье антропные исследователи определили «функции», связанные «цепями», которые являются путями от ввода Клода к выводу. Вторая статья была сосредоточена на Клоде 3,5 Хайку, изучая 10 поведений, чтобы диаграмма, как ИИ приходит к его результату. Антропик найден:

    Клод определенно планирует заранее, особенно на таких задачах, как написание рифмованных поэзии. Внутри модели есть «концептуальное пространство, которое разделяется между языками». Клод может «придумать фальшивые рассуждения», представляя свой мыслительный процесс пользователю.

Исследователи обнаружили, как Клод переводит концепции между языками, изучая совпадение в том, как ИИ обрабатывает вопросы на нескольких языках. Например, подсказка «противоположность маленьким IS» на разных языках направляется через одни и те же функции для «концепций малости и противоречивости».

Этот последний пункт согласуется с исследованиями Apollo Research по способности Claude Sonnet 3.7 обнаруживать тест на этику. Когда его попросили объяснить свои рассуждения, Клод «даст правдоподобный аргумент, предназначенный для согласования с пользователем, а не следовать логическим шагам»,-обнаружил Антроп.

См.: Предложение Microsoft AI Cybersecurity дебютирует в двух персонажах, исследователе и аналитике в раннем доступе в апреле.

Генеративный ИИ не волшебство; Это сложные вычисления, и это следует правилам; Тем не менее, его природа черного ящика означает, что может быть трудно определить, каковы эти правила и при каких условиях они возникают. Например, Клод показал общее колебание, чтобы дать спекулятивные ответы, но может обработать свою конечную цель быстрее, чем он обеспечивает результаты: «В ответ на пример джейлбрейк мы обнаружили, что модель признала, что ее попросили о опасной информации задолго до того, как она смогла изящно вернуть разговор», - обнаружили исследователи.

Как ИИ обучается на словах решает математические задачи?

Я в основном использую Chatgpt для математических проблем, и модель имеет тенденцию придумать правильный ответ, несмотря на некоторые галлюцинации в середине рассуждений. Итак, я задавался вопросом об одном из пунктов Антропика: думает ли модель о цифрах как о своей букве? Антропический мог точно определить, почему модели ведут себя так: Клод следовал нескольким вычислительным путям одновременно для решения математических задач.

«Один путь вычисляет грубое приближение ответа, а другой фокусируется на точном определении последней цифры суммы», - пишет Антроп.

Таким образом, имеет смысл, если выход верен, но пошаговое объяснение не так.

Первым шагом Клода является «анализ структуры чисел», поиск закономерности аналогично тому, как он найдет закономерности в буквах и словах. Клод не может извне объяснить этот процесс, так же, как человек не может сказать, какие из их нейронов стреляют; Вместо этого Клод даст объяснение того, как человек решит проблему. Антропные исследователи предположили, что это связано с тем, что ИИ обучается объяснениям математики, написанной людьми.

Что дальше для исследования LLM Antropic?

Интерпретация «цепей» может быть очень сложной из -за плотности производительности генеративного ИИ. По словам Антропика, человеку потребовалось несколько часов, чтобы интерпретировать схемы, создаваемые подсказками с «десятками слов». Они предполагают, что может потребоваться помощь ИИ, чтобы интерпретировать, как работает генеративный ИИ.

Антропик сказал, что его исследование LLM предназначено для того, чтобы быть уверенным, что ИИ выравнивается с этикой человека; Таким образом, компания изучает мониторинг в режиме реального времени, улучшение характера модели и выравнивание модели.

Подпишитесь на информационный бюллетень Innovation Insider Познакомьтесь с новейшими технологическими инновациями, которые меняют мир, включая IoT, 5G, последнее о телефонах, безопасности, интеллектуальных городах, искусственном интеллекте, робототехнике и многом другом. Поставлено вторниками и пятницами Адрес электронной почты Подписавшись на получение нашей рассылки, вы соглашаетесь с нашими Условиями использования и политикой конфиденциальности. Вы можете отказаться от подписки в любое время. Подписаться
Подпишитесь на информационный бюллетень Innovation Insider Познакомьтесь с новейшими технологическими инновациями, которые меняют мир, включая IoT, 5G, последнее о телефонах, безопасности, интеллектуальных городах, искусственном интеллекте, робототехнике и многом другом. Поставлено вторниками и пятницами Адрес электронной почты Подписавшись на получение нашей рассылки, вы соглашаетесь с нашими Условиями использования и политикой конфиденциальности. Вы можете отказаться от подписки в любое время. Подписаться

Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE