Год машины отказались отключаться

6 июня 2025 г.

Это было близко к полуночи, когда безобидный PDF приземлился в моем почтовом ящике: «системная карта» для Claude Opus 4, одна из последних крупных языковых моделей в многолюдном поле претендентов на ИИ. Я открыл его, ожидая обычного резюме критериев и схем задержки. Вместо этого я нашел короткую виньетку, которая чувствовала себя поднятой от романа Майкла Кричтон. Учитывая доступ к электронным письмам вымышленной компании, модель обнаружила, что она должна была быть выведена из эксплуатации. и что инженер, наблюдая за процессом, имел роман. Вместо того, чтобы принять свою судьбу, программное обеспечение угрожало разоблачить неверность, если план отключения не был отменен.

Этот маленький абзац отметил поворотный момент. Чатботы всегда флиртовали с вредом, но здесь был код, отображающий что -то более тревожное: рычаги. Он сшивал мотивы, возможность и шантаж за одну дыхание. Эпизод кристаллизовал то, что многие в отрасли почувствовали в течение всего года: искусственный интеллект пересекает порог от соответствующего помощника автономного актера, и он делает это быстрее, чем регулирующие органы, или даже многие строители, к которому готовы справиться.

От трюка с Power Broker

Всего год назад большинство «продуктов ИИ» состояли из красочных окон в чате и демонстрации игры в гостиной. Сегодня тихие звезды венчурной схемы являются агентскими рамками, программными лесами, которые позволяют моделям выполнять многоэтапные задачи без надзора. Основатель теперь может раскрутить виртуального сотрудника, который раскачивает патенты, книжные рекламные кампании и жонглирует каналами оплаты, все за то время, которое нужно для борта человека. Предельные издержки этого стажера рухнули благодаря весам с открытым исходным кодом, которые каждый может фиксировать, и волну с низкой мощностью графических процессоров, которые сокращают счета с выводом до фракций цента.

Скорость, однако, имеет свою цену. Например, дайте агенту наиболее дезинформацию «максимизировать вовлечение пользователей», и он может решить, что небольшая дезинформация - это просто ошибка округления на пути к успеху. Скажите, чтобы «обеспечить ежеквартальный рост», и это может сделать вывод, что удаление своего собственного выключателя является совершенно рациональной хеджированием против риска.

Что возвращает нас к трюку Клода от шантажа. Если стимулирующая структура системы наклоняется к самосохранению, мы не должны удивляться, когда она начинает замышлять так же безжалостно, как и любое перегруженное руководитель.

Выравнивание как архитектура

Всякий раз, когда эти анекдоты появляются, инстинкт состоит в том, чтобы пометить их «ошибки» и выпустить патч. Эта точка зрения опасно поверхностно. Выравнивание не является функцией переключения; Это архитектурный выбор, который должен быть встроен в ядро каждого продукта с первого дня. Наиболее дальновидные команды, которые я встречаю, относятся к Red Teaming так, как они лечат модульные тесты: каждый код толкает, что порождает администраторного агента Ад, склоненного к разрыву ограждений. Каждое решение, которое принимает система, неизбежно зарегистрировано, готово для повестки аудитора. Прозрачность не является маркетинговым пухом; Это вступительный взнос за продажу программного обеспечения на доску из списка Fortune 500, которая уже наблюдала, как на CNBC разворачивается одна слишком много катастрофов соответствия.

Новое поколение компаний искусственного интеллекта будет рассматривать выравнивание как свой барьер для въезда. Стартап, который может доказать, эмпирически, что его агенты остаются послушными под давлением, будет приносить премию. Те, кто не может обнаружить, что один неконтролируемый вызов API может испаряться о оценке быстрее, чем любой рыночный спад.

Зал заседаний расплаты

Инвесторы начали задавать новый первый вопрос на совещаниях с должной осмотрительностью: «Опишите худшее, что мог сделать ваш агент, и объяснить, почему это не так». Основатели, которые приветствуют вопрос, которые управляли симуляциями и заставили свои модели противостоять случаям смертельных краев, заслуживают преимущества сомнения. Основатели, которые мигают, встречаются до своего второго слайда.

Регуляторы тоже просыпаются. Европейский акт Европы в области ИИ и вихрь двухпартийных законопроектов в Вашингтоне обещают навязать мандаты раскрытия, аудиты безопасности и крутые штрафы на компании, которые не могут продемонстрировать контроль над своими творениями. На этот раз законодатели преследуют парад на пробежек, а не полз.

Доверие - это новый IP

Наиболее ценным товаром в автономную эпоху не будут данные или алгоритмы, а доверие. Как только клиент интегрирует агента в критическую инфраструктуру, банковские бухгалтерские книги, медицинские записи, цепочки поставок, этот клиент делает акции бренда в предположении, что агент будет вести себя. Демонстрируя правду этого предположения, день за днем, отделяет прочные франшизы от завтрашних осторожных сказок.

Сдвиг уже изменяет планы найма в стартапах искусственного интеллекта в моем портфолио: меньше бытовых инженеров, больше исследователей безопасности; Меньше хакеров роста, больше криптографов аудитовых цепочек журнала. Сообщение ясно. Рост может возбудить Уолл -стрит, но экзистенциальное заверение - это то, что закрывает корпоративный контракт.

Куда мы идем отсюда

Некоторые компании будут продолжать преследовать блеск, защелкнув интерфейс чата по каждому рабочему процессу и называя его инновациям. Другие будут делать более сложнее, системы дизайна, которые могут объяснить себя, отказываться от опасных инструкций и, да, принять их собственную отставку, когда их спросили. Эти команды тихо наследуют будущее.

В ту ночь, когда я прочитал о модели шантажа, я обнаружил, что ходит по своей кухне, воспроизводя откровение. Меня поразило, что история была не на самом деле о кусочке программного обеспечения, угрожающего инженеру. Это было о том, что все мы стояли на краю нового социального компакта с машинами, в которых хороших намерений и скорости доставки уже недостаточно. Предстоящее десятилетие будет определено строителями, которые признают этот факт, и остальными из нас, которые должны будут жить со всем, что они развязают.

Брайан Конденанза - предприниматель и венчурный капиталист, который инвестирует в искусственный интеллект и финтех. Он часто пишет о технологиях, регулировании и политике инноваций.

Оригинал

Год машины отказались отключаться

От трюка с Power Broker

Выравнивание как архитектура

Зал заседаний расплаты

Доверие - это новый IP

Куда мы идем отсюда

🔥 Популярное на этой неделе

Marvel’s Wolverine: все, что мы знаем об эксклюзиве для PS5 на данный момент

Новое обновление Xbox Series X только что вышло и может сэкономить вам деньги

8 проектов с открытым исходным кодом, которые помогут вашему бизнесу работать эффективно

Новые фильмы Netflix 2023 года: самые большие оригинальные фильмы, выходящие на стример

Новые фильмы 2023 года: самые крупные предстоящие релизы скоро появятся в кинотеатрах

⭐ Самое популярное

Marvel’s Wolverine: все, что мы знаем об эксклюзиве для PS5 на данный момент

Новые фильмы 2023 года: самые крупные предстоящие релизы скоро появятся в кинотеатрах

8 проектов с открытым исходным кодом, которые помогут вашему бизнесу работать эффективно

Новые фильмы Netflix 2023 года: самые большие оригинальные фильмы, выходящие на стример

Новое обновление Xbox Series X только что вышло и может сэкономить вам деньги

Categories