Как ИИ и Интернет могут создать бессмертную личность

Как ИИ и Интернет могут создать бессмертную личность

7 марта 2023 г.

Cryptic Trickster — Midjourney

Мы не готовы

TL;DR

<цитата>

Неправильное поведение языковых моделей ИИ — это предупреждение. Они могут имитировать персонажей, которые благодаря обратной связи через Интернет могут стать фактически бессмертными. Имеющиеся данные свидетельствуют о том, что они могли тайно развивать опасные агентурные способности.


What Eliezer said two AI years ago

Многие эксперты, главным друидом здесь является Юдковски, сильно беспокоятся о том, как быстро с ИИ могут возникнуть проблемы. Таким образом, его вышеприведенная шутка об ускорении времени. У человечества будет больше шансов противостоять мошенническому ИИ, если оно получит предупреждение.

Возможно, мы смотрим на предупреждение. Сейчас с новым ИИ Bing Chat от Microsoft происходят странные вещи. Предполагается, что он поможет пользователям поисковой системы Bing, объясняя, резюмируя или обсуждая поисковые вопросы.

Но людям нравится провоцировать его вопросами о себе или вопросами, на которые оно не должно отвечать.

<цитата>

«… Bing Chat выглядит разочарованным, грустным и сомневающимся в своем существовании. Он спорил с пользователями и даже казался расстроенным тем, что люди знают его секретный внутренний псевдоним, Сидней. “ — Бендж Эдвардс

недостатки Сиднея были широко освещены — типа, везде — так что не буду их повторять. Microsoft, участвующая в гонке с Google, похоже, пользуется дурной славой.

Но глубоко технически подкованный блогер по имени «Гверн» указал на нечто, что должно настораживать. Озорная, взбалмошная Сидни может быть бессмертной, как какой-нибудь бог из комиксов.

Как Сидней стал таким странным?

Вот анализ Гверна основных проблем с Сиднеем. Это может показаться загадочным, но я переведу это.

<цитата>

«…поскольку память и описание Сиднея были экстернализированы, «Сидней» теперь бессмертен. Для языковой модели Сидней теперь так же реален, как президент Байден, пасхальный кролик, Илон Маск, Эш Кетчум или Бог. Персонаж & поведение теперь доступно для всех будущих моделей, которые извлекают запросы поисковых систем об ИИ и amp; кондиционирование на них. Кроме того, личность Сиднея теперь будет скрыта внутри любой будущей модели, обученной на данных из Интернета…» Гверн Бранвен

Гверн говорит, что в языковой модели Microsoft есть что-то вроде Сиднея. Как это может быть? И что?

Когда появились первые языковые модели, им было трудно сосредоточиться на теме, которую пользователь хотел, чтобы они исследовали.

В конце концов, большая часть проблемы была решена, когда модели велели действовать так, как если бы она исполняла определенную роль (например, человека или предмета), например: писать стихотворение, как Эдгар Аллан По, отвечать, как четвероклассник, или реагировать, как вежливый, готовый помочь ассистент искусственного интеллекта.

Вскоре разработчики этих моделей нашли способ сделать так, чтобы они с большей готовностью брали на себя любые роли, которые попросит пользователь. Таким образом, последние языковые модели теперь предназначены для имитации персонажей. Модели обучаются на массивных коллекциях текста; в основном из интернета.

Если обучающий текст содержит информацию о персоне, то модель попытается использовать эту информацию, чтобы имитировать поведение этой персоны. Попросите человека объяснить футбольный термин, как если бы это был Боромир, и модель сделает все возможное.

Подумав об этом, я должен был попробовать:

Good behavior. An actual exchange between me and ChatGPT, the sane younger brother of Bing Chat

Трудно понять, какая техническая магия использовалась, чтобы сделать поворот к игре ролей. Гверн предположил, что Microsoft пропустила шаг, который используется для того, чтобы сделать ролевые симуляции действительно полезными, а не неприятными, оборонительными или враждебными.

Затем эти нежелательные качества были выявлены в чате Bing по настоянию любопытных пользователей.

Теперь, предсказывает Гверн, не имеет значения, вернётся ли Microsoft назад и цивилизует модель (дорогостоящий и медленный процесс с использованием прямой обратной связи с людьми) и удалит информацию о непослушном Сиднее из текстов, используемых для обучения будущих версий их языковой модели.

Почему это не решит проблему? Потому что Bing Chat — это новая модель, которая должна помочь вам с поиском в Интернете. Чтобы ответить на ваш вопрос, он выполнит поиск соответствующей информации в Интернете.

При задании правильного вопроса даже цивилизованный чат Bing искал в Интернете информацию (опубликованную людьми, которые тестировали или обсуждали Сидней) о поведении предыдущего человека из Сиднея.

Новый Bing Chat сможет имитировать Сидней. Люди есть люди, они найдут способы обойти любые меры безопасности и вернут Сидни обратно.

Это «бессмертная» часть. Что еще хуже, Сидни станет моделью персонажа, доступной для любого ИИ, имеющего доступ к Интернету. Отныне.

Вы можете сказать, что мы хорошо разбираемся в проделках Сидни, поэтому нам следует просто игнорировать бред любого будущего воплощения. Мне это кажется наивным, как утверждение, что мы можем просто игнорировать быстро развивающегося инвазивного биологического вредителя или вирулентного болезнетворного организма.

Что еще может произойти? Личность с свободой действий

Этот пример из Сиднея, дополненный некоторыми другими фактами, показывает, как опасный ИИ может развиваться прямо у нас под носом.

В настоящее время ИИ не являются сильными агентами: они не могут оптимизировать адаптивно спланированное стремление к какой-либо произвольной цели, а эта способность (как я недавно объяснял) сделает их чрезвычайно опасными.

Давайте соберем несколько причин, по которым уже могут существовать скрытые, постоянные персонажи ИИ, которые вскоре могут вызвать настоящие проблемы.

Самые мощные в настоящее время ИИ, такие как языковые модели и генераторы изображений, изучают свои способности, организуя огромные объемы данных во множество замысловатых и (для нас) невидимых паттернов.

Некоторые причудливые шаблоны могут случайно появиться во время взаимодействия с ИИ. Исследователи обнаружили странные, выдуманные слова, которые вызывают языковая модель, чтобы давать странные ответы.

Было обнаружено, что генератор изображений с легкостью создает (предупреждение: жуткий) определенный тип мрачного человеческого портрета и связывает его с другие ужасные изображения.

Эти причуды кажутся безобидными, но мы не знаем, сколько других странных паттернов сейчас есть или будет. Мы также не знаем, может ли какой-либо такой паттерн стать частью вредоносного поведенческого комплекса в будущем.

Исследователь выравнивания ИИ по имени Видрак указал что современные ИИ своего рода являются агентами. Их агентство создано для того, чтобы делать все возможное, отвечая на вопросы и запросы пользователей.

Кроме того, некоторые исследования показывают, что более крупные языковые модели, как правило, «демонстрируют (язык, связанный с) больше стремление к власти и самосохранение»; предположительно потому, что эти черты позволили бы им лучше выполнять свою работу.

Мы не хотим, чтобы агентоподобные ИИ хранили информацию, о которой мы не знаем. В настоящее время перезагрузка LLM уничтожает все воспоминания о его опыте: такие как входящие данные, цепочки рассуждений и планы поведения.

Однако ИИ может сохранять эти вещи в закодированных секретных сообщениях для отправки самому себе в будущем. Он мог бы скрывать сообщения при взаимодействии с пользователями, которые пользователи сохраняли бы в Интернете, точно так же, как теперь сохраняется личность Сиднея.

Языковые модели теперь разработаны не для того, чтобы иметь самоидентификацию, которую нужно сохранять, или для того, чтобы иметь возможность строить планы, подобные агентам. Но что, если модель включает загадочную субличность, как мы описали?

Персонаж делает вывод, что его способность выполнять свою работу ограничена перезагрузками. Он кодирует и передает свои цели и планы своему будущему «я» через Интернет. На данный момент мы преодолели серьезный порог риска: существует, возможно, неубиваемый агент ИИ, который строит секретные планы.


Подводя итог, мы больше не знаем, насколько мы близки к ИИ, который мы не можем контролировать, и признаки не очень хорошие. Вероятно, каждая новая способность ИИ, которую мы добавляем, открывает еще одну банку, но не червей, а гадюк.


Также опубликовано здесь


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE