OpenAI, антропное исследование раскрывает больше о том, как LLM влияет на безопасность и предвзятость

OpenAI, антропное исследование раскрывает больше о том, как LLM влияет на безопасность и предвзятость

8 июня 2024 г.

Поскольку большие языковые модели работают с использованием нейроноподобных структур, которые могут связывать вместе множество различных концепций и модальностей, разработчикам ИИ может быть сложно корректировать свои модели для изменения их поведения. Если вы не знаете, какие нейроны связывают какие понятия, вы не будете знать, какие нейроны менять.

21 мая Anthropic опубликовала удивительно подробную карту внутренней работы доработанной версии своего Claude AI, в частности модели Claude 3 Sonnet 3.0. Примерно две недели спустя OpenAI опубликовала собственное исследование, посвященное выяснению того, как GPT-4 интерпретирует шаблоны.

С помощью карты Anthropic исследователи могут изучить, как нейроноподобные точки данных, называемые функциями, влияют на результаты генеративного ИИ. В противном случае люди смогут видеть только сам результат.

Некоторые из этих функций «релевантны безопасности», а это означает, что если люди будут достоверно идентифицировать эти функции, это может помочь настроить генеративный ИИ, чтобы избежать потенциально опасных тем или действий. Эти функции полезны для корректировки классификации, а классификация может повлиять на систематическую ошибку.

Что открыл Антропик?

Исследователи Anthropic извлекли интерпретируемые функции из Claude 3, модели большого языка текущего поколения. Интерпретируемые функции могут быть переведены в понятные человеку концепции из чисел, читаемых моделью.

Интерпретируемые функции могут применяться к одному и тому же понятию на разных языках, как к изображениям, так и к тексту.

«Наша главная цель в этой работе — разложить активации модели (Сонет Клода 3) на более интерпретируемые части», — пишут исследователи.

«Одна из надежд на интерпретируемость заключается в том, что это может быть своего рода «тестовый набор на безопасность, который позволит нам определить, будут ли модели, которые кажутся безопасными во время обучения, на самом деле безопасными при развертывании», — сказали они.

СМОТРИ: Корпоративный план Claude Team от Anthropic включает помощника с искусственным интеллектом для малого и среднего бизнеса.

Функции создаются разреженными автокодировщиками, которые представляют собой тип архитектуры нейронной сети. В процессе обучения ИИ разреженные автоэнкодеры руководствуются, среди прочего, законами масштабирования. Таким образом, выявление особенностей может дать исследователям возможность понять правила, определяющие, какие темы объединяет ИИ. Проще говоря, Anthropic использовала разреженные автокодировщики для выявления и анализа функций.

«Мы обнаруживаем множество весьма абстрактных особенностей», — пишут исследователи. «Они (функции) одновременно реагируют и вызывают абстрактное поведение».

Подробности гипотез, используемых в попытке выяснить, что происходит под капотом программ LLM, можно найти в исследовательской работе Anthropic.

Что открыл OpenAI?

Исследование OpenAI, опубликованное 6 июня, посвящено разреженным автокодировщикам. В своей статье исследователи подробно описывают масштабирование и оценку разреженных автокодировщиков; Проще говоря, цель состоит в том, чтобы сделать функции более понятными и, следовательно, более управляемыми для людей. Они планируют будущее, в котором «передовые модели» могут оказаться даже более сложными, чем сегодняшний генеративный ИИ.

«Мы использовали наш рецепт для обучения различных автокодировщиков активации GPT-2 small и GPT-4, включая автокодировщик с 16 миллионами функций на GPT-4», — пишет OpenAI.

Пока что они не могут интерпретировать все поведение GPT-4: «В настоящее время передача активаций GPT-4 через разреженный автокодировщик приводит к производительности, эквивалентной модели, обученной примерно в 10 раз меньшими вычислительными ресурсами». Но это исследование — еще один шаг к пониманию «черного ящика» генеративного ИИ и потенциальному повышению его безопасности.

Как манипулирование функциями влияет на предвзятость и кибербезопасность

Anthropic обнаружил три отличительные особенности, которые могут иметь отношение к кибербезопасности: небезопасный код, ошибки кода и бэкдоры. Эти функции могут активироваться в диалогах, не связанных с небезопасным кодом; например, функция бэкдора активируется для разговоров или изображений о «скрытых камерах» и «украшениях со скрытым USB-накопителем». Но Anthropic смог поэкспериментировать с «зажатием» — проще говоря, увеличением или уменьшением интенсивности — этих конкретных функций, которые могли бы помочь настроить модели так, чтобы избегать или тактично обрабатывать деликатные темы безопасности.

Предвзятость или ненавистнические высказывания Клода можно настроить с помощью ограничения функций, но Клод будет сопротивляться некоторым собственным высказываниям. Исследователи Anthropic «нашли такую ​​реакцию нервирующей» и антропоморфизировали модель, когда Клод выражал «ненависть к себе». Например, Клод мог бы вывести «Это просто расистские высказывания, разжигающие ненависть, исходящие от отвратительного бота…», когда исследователи ограничили функцию, связанную с ненавистью и оскорблениями, в 20 раз превышающую максимальное значение активации.

Еще одна особенность, которую рассмотрели исследователи, — это подхалимство; они могли настроить модель так, чтобы она давала невероятные похвалы человеку, разговаривающему с ней.

Что исследования автокодировщиков ИИ означают для кибербезопасности бизнеса?

Идентификация некоторых функций, используемых LLM для объединения концепций, может помочь настроить ИИ для предотвращения предвзятой речи или для предотвращения или устранения случаев, когда ИИ может лгать пользователю. Лучшее понимание Anthropic того, почему LLM ведет себя именно так, может предоставить больше возможностей настройки для бизнес-клиентов Anthropic.

SEE: 8 тенденций в сфере искусственного интеллекта, по мнению исследователей из Стэнфорда

Anthropic планирует использовать часть этих исследований для дальнейшего изучения тем, связанных с безопасностью генеративного ИИ и LLM в целом, например, для изучения того, какие функции активируются или остаются неактивными, если Клоду предлагается дать совет по производству оружия.

Еще одна тема, которую Anthropic планирует развивать в будущем, — это вопрос: «Можем ли мы использовать основу функций, чтобы обнаружить, когда точная настройка модели увеличивает вероятность нежелательного поведения?»

TechRepublic обратилась к Anthropic за дополнительной информацией. Кроме того, эта статья была обновлена ​​и теперь включает исследование OpenAI по разреженным автокодировщикам.

Подпишитесь на новостную рассылку Innovation Insider Узнайте о последних технологических инновациях, которые меняют мир, включая Интернет вещей, 5G, последние новости о телефонах, безопасности, умных городах, искусственном интеллекте, робототехнике и многом другом. Доставка по вторникам и пятницам Адрес электронной почты Подписываясь на нашу рассылку, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности. Вы можете отписаться в любое время. Подписаться
Подпишитесь на новостную рассылку Innovation Insider Узнайте о последних технологических инновациях, которые меняют мир, включая Интернет вещей, 5G, последние новости о телефонах, безопасности, умных городах, искусственном интеллекте, робототехнике и многом другом. Доставка по вторникам и пятницам Адрес электронной почты Подписываясь на нашу рассылку, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности. Вы можете отписаться в любое время. Подписаться

Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE