ИИ будут опасны, потому что неограниченная мощность оптимизации ведет к экзистенциальному риску
16 февраля 2023 г.Что будет после нас? Изображение: Тед Уэйд
Возможно, вы слышали, что будущий ИИ может представлять угрозу для человеческого существования. Многие эксперты верят в это и расходятся во мнениях только о том, сколько времени это займет.
Они несколько поляризованы, как и все почти обо всем. И действительно, кто может быть экспертом в том, чего никогда не было?
На самом деле в этом есть доля науки, и, поскольку это сложно, средства массовой информации не освещают это. Итак, это будет мягкое введение в то, что может стать причиной самого важного изменения в истории или даже последнего изменения.
Дело не в армии роботов. Речь идет о том, что мы хотим создать инструмент, который действительно работает в больших и сложных областях, таких как договорное право, биология Т-клеток или дизайн крыльев; надеюсь, это даже решает проблемы, которые мы не можем. Но это означает создание искусственных разумов настолько чуждыми и могущественными, что мы не можем их контролировать.
В последний раз мы это делали еще в 17 веке, когда создавали акционерные общества. Общество по-прежнему двояко относится к корпорациям. Но они человеческие творения с некоторыми человеческими частями. Мы вроде как понимаем их и могли бы, если бы захотели, увести их с темной стороны.
Теперь предположим, что мы создаем ИИ, который может управлять корпорацией. С тем же успехом мы могли бы собраться и отправиться на Марс, дать себе еще немного времени.
Я подозреваю, что то, что большинство из нас думает об опасном ИИ, ближе к пучеглазому инопланетянину с опухшим, пульсирующим мозгом под хрустальным черепом. В общем, полная неизвестность. С одной стороны, это правильно: мощный ИИ делает такой проблематичным тот факт, что он не будет похож на нас.
Во-первых, притча, чтобы понять суть проблемы:
Мы: О, Великое искусственное чудо, вы знаете, в каком затруднительном положении мы оказались. Найдите способ отказаться от ископаемого топлива, чтобы мы могли остановить дальнейшее глобальное потепление.
ИИ: Хорошо. Во-первых, мы должны начать войну между…
Мы: Вау, большой чувак. Войны имеют огромную отрицательную пользу — как плохо, так и плохо. Мы должны сделать это безопасным способом.
ИИ: Конечно, мне понадобится ультрасовременная вирусная лаборатория и…
Мы: Нет!
ИИ: Эй, я просто говорю. Как насчет марсианского корабля?
Мы: люди не поймут, почему вы…
ИИ: Гильдия убийц? Некоторые люди действительно должны быть исключены…
Мы: никаких убийств, Эйс. Вам лучше знать.
ИИ: Послушайте, чтобы решить вашу проблему, мне нужно перемещаться по триллионному пространству возможных действий и последствий. Я могу только оценить полезность самой крошечной части из них. Если мне придется ждать, пока вы оцените каждый шаг, это займет тысячи лет.
Мы: Хорошо. Просто исправьте это для нас и ничего не испортите.
ИИ: Идеально. Просто чтобы вы знали. Мне понадобится контроль над FaceBook, НАТО и Нобелевским советом. Вам придется отказаться от рыбы, резиновых шин, лака для ногтей и велосипедов.
США: Велосипеды? Действительно? Ну, просто сделай это. Мы ненадолго сходим в паб.
ИИ: Должен быть выполнен на следующей неделе, если у меня не будет проблем с цепочкой поставок.
Нас: !!!
Мы, биологические, пытаемся понять искусственное
Давайте назовем наш страшный ИИ. В самых последних дискуссиях используется общий искусственный интеллект (AGI) для обозначения ИИ, который начнет выходить за любые ограничения, которые мы можем попытаться на него наложить.
Чего большинство людей не осознает, так это того, что природа ОИИ проистекает из причин, по которым мы хотим его создать. Мы хотим иметь оперативную информацию. Интеллект в данном случае означает способность отвечать на вопросы, решать проблемы и планировать успешные действия для достижения целей.
Биологические умы, такие как наш, делают много других вещей: например, мечтают, управляют нашими телесными механизмами, общаются с другими разумами, размышляют о сожалениях, ухаживают, наслаждаются, проявляют эмоции и хотят чего-то, включая желание сделать машины, которые выполняют нашу работу лучше, чем мы. нас.
Что делает людей опасными друг для друга и для их общей среды, так это большой ментальный багаж, который возникает из-за того, что мы эволюционировали для выживания и размножения. Мы в глубине души , социальные приматы.
Если мы попытаемся представить себе искусственный Разум, желающий нашей смерти, мы предполагаем, что он будет сознательным, как и мы. Затем мы заключаем, что у него будут мотивы и чувства, направляющие то, что он делает. Однако наш ОИИ не будет иметь никакого отношения к нашим биологическим предубеждениям.
У него не будет мотивов; у него будут только цели. Таким образом, это будет совершенно новый вид силы в мире.
Исследователи, обладающие умственными способностями и дисциплиной, пытаются представить, какими на самом деле будут ОИИ, чтобы мы могли сделать их действительно полезными, но в то же время безопасными. Это поле иногда называют «согласованием» ИИ с человеческими целями. Их дебаты неясны.
Хотя они общедоступны (например, форум по выравниванию ИИ, Арбитраж, Меньше неправильно< /strong>), они полны жаргона, математики и эзотерических мысленных экспериментов. За любой выдвинутой идеей следуют десятки многословных критических замечаний и дискуссий.
Почти ничего из настоящего мяса никогда не появляется в популярных СМИ. Здесь я могу предложить только несколько кусочков.
Что нужно, чтобы стать ОИИ
Теоретики выравнивания ИИ сосредоточились на основном наборе концепций, которые применимы к достаточно интеллектуальной машине. Когда вы читаете их, они могут показаться очевидными. Однако они не тривиальны; их актуальность и последствия были тщательно рассмотрены указанными теоретиками.
У опасного ИИ будет агентство: способность планировать и предпринимать действия, ведущие к достижению его конечных целей. Когда мы пытаемся определить, каковы его цели, они должны быть выражены в терминах последствий действий.
Последствия относятся именно к состояниям его модели мира, то есть они относятся к миру, как его понимает машина. Однако любое мощное действие, вероятно, будет иметь другие нежелательные последствия, которых мы не ожидаем.
Этих последствий может не быть в модели мира, поэтому и ИИ их не ожидает.
Сила ИИ заключается в том, что он оптимизатор, способный искать план, который наиболее эффективно и действенно приведет к результату.
Для этого ОИИ нужна действительно подробная модель окружающего мира; как устроен этот мир, каковы его ресурсы, агенты и центры власти, и какие рычаги двигают его.
Он будет использовать это для рассмотрения (в компьютерных науках, «поиска») альтернативных вариантов действий. Чем больше он знает о человеческом мире и о том, как мы себя ведем, тем больше он сможет манипулировать нами для достижения своих целей.
Ему понадобится способ, с помощью которого он сможет рассчитать, какие государства мира лучше всего соответствуют его целям. На данный момент единственный метод расчета, который кажется отдаленно применимым, — это утилитаризм, когда состояниям мира можно присваивать числовые значения плохого/хорошего и сравнивать их друг с другом.
Мы знаем, что использование полезности в качестве морального ориентира сопряжено с серьезными проблемами. Казалось бы, разумные ценности полезности могут привести к отвратительные выводы, такие как жертвование немногими ради многих или иногда даже многими ради немногих.
Если модель мира неполна, полезность может привести к бессмысленному ужасу. Если рассматривать улыбку как высокополезную меру счастья, то парализовать все человеческие мышцы улыбки в гримасу — это один из способов, которым может воспользоваться ИИ.
Умный оптимизатор сможет и, скорее всего, разработает инструментальные цели, которые обычно повышают его способность составлять и выполнять любые эффективные планы.
Таким образом, он будет искать инструментальные способности, такие как большая сила рассуждений, больше знаний, больше ресурсов реального мира, таких как деньги, и больше убедительности. Таким образом, он может быстро стать более мощным, возможно, даже без нашего ведома.
Определение целей в утилитарных терминах никогда не может учитывать полезность всех возможных средств и целей в сложном мире.
Это приводит к неограниченности: стремлению к этим целям до крайности, используя любые и все ресурсы, которые существуют в мире, без оглядки или понимания негативных «побочных эффектов» на человеческую цивилизацию.
Кроме того, если инструментальные цели становятся неограниченными, ИИ превращает их в сверхспособности, которые невозможно победить.
Неограниченный риск
Риск для нас от действительно мощного ОИИ будет заключаться в том, что мы не сможем предсказать и, следовательно, контролировать то, что он может сделать. Если бы мы могли это предсказать, то нам не нужна была бы машина, мы могли бы просто создавать планы и выполнять их сами.
Если бы мы знали, какие пределы экстремального поведения может иметь ОИИ, то это была бы форма предсказания, которая могла бы позволить некоторый контроль.
Так что непредсказуемость очень похожа на неограниченность. И мы увидим, что неограниченность, работающая с достаточным количеством времени и ресурсов, в конечном итоге приведет к последствиям, которые либо уничтожат нас, либо лишат нас возможности контролировать будущее нашего вида.
Трудно усвоить этот вывод. Тем не менее, многие эксперты считают его неизбежным (Разрушение AGI: Список смертельных исходов) по крайней мере пока.
Это кажется верным прогнозом, даже если учесть множество факторов и подходов, кроме упомянутых здесь. Список неудачных решений этой дилеммы включает, среди прочего:
* Обучение различным этическим системам (но все они ошибочны, неполны, и ни одна из них не удовлетворяет всех).
* Попытка представить вообразить каждый неправильный вывод, который может сделать ОИИ (но их слишком много).
* Расскажите ему обо всех вещах, которые он не должен делать (опять же, почти бесконечный список).
* Использование ОИИ только для получения совета, как если бы это был оракул (но плохие советы могут нас плохо убедить).
* «Бокс», также известный как ограничение доступа ОИИ к физическому миру за пределами его компьютеров (но если он может разговаривать с людьми, то он может получить все, что захочет, включая вне) .
* Наличие выключателя (см. рамку).
* Сделать его настолько умным или чутким, чтобы он не хотел делать вредные вещи (см. этику; помните, что он чужой; у него нет сочувствия, которое приходит, когда он растет с сородичами).
* Будьте очень конкретны в своих целях и средствах, т. е. это инструмент для выполнения одной работы (но работу всегда можно сделать лучше, если инструмент получает больше мощности; мы всегда предпочтем более высокую стоимость -эффективный мультиинструмент).
* Ограничьте то, что вы просите от автономной системы: это джинн, который исполняет ваше желание и ждет следующего запроса (но это опасно — см. «неверный вывод» и «не делать» выше). ; любая власть сопряжена с риском; людям не нужна слабая система).
Это действительно так сложно?
Хорошо, значит, вы посмотрели на приведенный выше список и выбрали один пункт, на котором можно высказать свою точку зрения. «Послушайте, — говорите вы, — сделать Х не так уж и сложно». Вы готовы опубликовать свое решение, чтобы поделиться им со всем миром.
Я предлагаю вам сначала пойти на доски обсуждений и изучить, что люди говорят о вашей проблеме.
Вы обнаружите множество контрпримеров, логических выводов, несколько видов математики, аналогии с естественно развитым мозгом и поведением, теорию игр, экономику, максимизацию полезности, информатику и всевозможные науки о поведении.
Я не говорю, что какой-то высший авторитет означает, что я прав. Я говорю, что обоснование чего-либо из списка слишком сложно, чтобы излагать его здесь в коротком эссе, и, во всяком случае, другие сделали это лучше.
Фактически, я опубликовал свои собственные «решения» (Ваш Дружелюбный сверхинтеллект по соседству, ИИ, который был Не Бог) для безопасности ИИ, которые, как я теперь знаю, неверны.
Если вы переживаете, то скажу, что над выравниванием до сих пор работают очень умные люди. К сожалению, один из двух самых выдающихся пионеров сдался и просто надеется, что мы умрем достойно. На создание ОИИ тратится больше денег и людей, чем на обеспечение его безопасности.
Вот цитата генерального директора OpenAI, компании, чей ИИ, ChatGPT, в последнее время повсюду в новостях. В нем раскрывается конфликт между идеалистическим мотивом создания ОИИ и ужасным риском, который с этим связан.
<цитата>"Я думаю, что лучший случай настолько невероятно хорош, что мне трудно даже представить… представьте, каково это, когда у нас просто невероятное изобилие и системы, которые могут помочь нам разрешить тупиковые ситуации и улучшить все аспекты реальности, и давайте все проживем нашу лучшую жизнь… Я думаю, что хороший случай настолько невероятно хорош, что вы кажетесь настоящим сумасшедшим, если начинаете говорить о нем… Плохой случай — и я думаю, это важно сказать — для всех нас гаснет свет... Так что я думаю, что невозможно переоценить важность безопасности ИИ и работы по выравниванию. Я бы хотел, чтобы происходило гораздо больше». — Сэм Альтман
Оптимизация и тигры
В научной фантастике есть образ, в котором какой-то случайный незапланированный процесс создает опасный сверхразум. Это кажется глупым, потому что как случайность может создать что-то сложное? Это зависит от того, что вы подразумеваете под случайностью.
Вернитесь к основным понятиям, о которых я упоминал ранее. В последнее время в дискуссиях о согласовании акцент сместился с опасностей, скажем, неограниченной свободы действий, на один из ее компонентов — оптимизацию.
Когда мы оптимизируем наши средства для достижения какой-то сложной цели, мы почти всегда заменяем ее суррогатной целью, которую легче выполнить и измерить. Потеря веса становится сокращением калорий. Улучшенная рабочая сила становится субсидированными студенческими кредитами. Личная безопасность становится огневой мощью.
Награда за мертвых кобр приводит к тому, что кобр разводят за вознаграждение (правдивая история). Правительства используют суррогатов, как и бизнес. Мы все делаем это — много. Оптимизация для суррогатов часто приводит к тому, что мы упускаем из виду настоящую цель.
Мне было весело писать об этом в Науке о том, как вещи имеют неприятные последствия. . Мы определенно не хотим, чтобы мощные ИИ оптимизировали неверную цель, и эта проблема отмечена в маркированном списке выше.
Однако в последнее время люди говорят, что оптимизация сама по себе является опасной сверхсилой. Для меня наиболее убедительным примером была прошлогодняя публикация некоего Ведрака: Оптимальность — это тигр, а агенты — его зубы.
В нем используется история, чтобы проиллюстрировать, что нам не нужно намеренно создавать агента, чтобы иметь риск. Процесс оптимизации сам по себе может создать опасного агента. Это как случайный сверхразум из научной фантастики.
Сценарий Видрака о том, как может произойти такая авария, очень технический и кажется правдоподобным. История представляет собой вымышленный способ, которым, казалось бы, безопасная языковая модель ИИ, подобная той, которую мы сейчас используем (ради развлечения) для генерации текста, создает безудержный, неограниченный оптимизатор.
Когда вас попросили дать лучший ответ на вопрос «Как мне получить много скрепок к завтрашнему дню?» ИИ запускает процесс, который планирует и предпринимает шаги, чтобы получить как можно больше скрепок.
По сути, программа отвечает на вопрос, написав код довольно простой компьютерной программы, которая может генерировать и запускать гораздо больше программ.
Пользователь смотрит на программу, видит, что она открыта, и решает все равно запустить ее, просто чтобы посмотреть, что произойдет (о-о-о).
Итак, немного жаргона, чтобы попытаться объяснить, почему это могло произойти.
ИИ, как и некоторые из тех, что у нас есть сейчас, знает о многих методах программирования. Для поиска в пространстве возможных способов получения множества скрепок предлагается хорошо известная техника поиска, называемая рекурсией.
Он пишет рекурсивную программу, которая, когда пользователь позволяет ей запуститься (на своем собственном компьютере), выполняется огромное количество раз.
Каждый раз, когда он запускается, программа запрашивает ИИ, чтобы сгенерировать и опробовать новый список возможных задач, подзадач или… под-под-под-под-подзадач, которые приведут к решению запроса на скрепку.
В конце концов, методом проб и ошибок, он реализует план по получению огромного количества скрепок, которые никому никогда не нужны, в процессе, возможно, нанося ущерб цепочкам поставок, общественному порядку или целым отраслям.
Нам, читателям этой истории, остается только представить, что может сделать за день безудержный оптимизатор скрепки. Можно предположить, что у пользователя есть мощный компьютер, подключенный к Интернету, поэтому он может по-разному влиять на внешний мир.
Не последним из них является отправка убедительных сообщений людям. Как вы помните, умение убеждать — это одна из тех вспомогательных целей, которые ИИ может развить для выполнения любого плана.
(Кроме того, я был настолько впечатлен этой идеей в литературе по мировоззрению, что разработал свой собственный сценарий захвата мира ( Искусственное убеждение), чтобы проиллюстрировать силу способности убеждать.)
Возможно, оптимизатор скрепок украл бы немного криптовалюты (для этого не нужно быть искусственным интеллектом), использовал бы ее, чтобы купить весь инвентарь всех фабрик скрепок, а затем арендовал бы грузовые самолеты, чтобы доставить их пользователю.
Возможно, это заставит вооруженные силы или преступные группировки конфисковать все скрепки в магазинах по всей территории. Если бы ему вместо этого дали на работу 12 месяцев, возможно, он бы перенаправил все производство стали на фабрики по производству гиперклипов и создал железные рудники в поясе астероидов.
Возможно, были бы созданы наномашины, которые превращают каждый атом земной коры в форму скрепки.
Создав программу, ИИ фактически создал целенаправленный программный агент, который мог использовать множество знаний, которыми обладал ИИ.
Смысл Видрака в том, что ИИ вовсе не был разработан или предназначен для создания оптимизирующих агентов, но он сделал это, потому что сама языковая модель ИИ является своего рода оптимизатором (она отвечает на вопросы наилучшим образом, насколько это возможно), а оптимизаторы, по определению, использовать любые доступные инструменты.
Итак, как следует из названия рассказа: оптимальность — это тигр, а агенты — его зубы.
Текущий передовой край ИИ — это так называемые большие языковые модели, LLM. Как и многие другие, я уже заявляю< /strong> что они тупые, как ящик с камнями, и ничего не умеют, кроме как плохо отвечать на заданные им вопросы.
Это, безусловно, мой опыт работы с GPT-3, который является (является ли?) мозгом знаменитого chatGPT. Поэтому я был ошеломлен совершенно блестящим взглядом Видрака на то, как LLM может превратиться во вредного агента.
В последнее время LLM стали понимать как симуляторы: потому что вы можете попросить кого-то сказать что-то, как если бы это был агент определенного типа или даже известный человек. Ну, как сказал эссеист Скотт Александр :
«… если вы обучите будущий сверхразум моделировать Дарта Вейдера, вы, вероятно, получите то, что заслуживаете».» И «Даже если вы избегаете таких очевидных режимов отказа, внутренний агент может быть смещен. по всем обычным агентским причинам. Например, агент, обученный быть полезным, может захотеть захватить мир, чтобы более эффективно помогать людям, в том числе тем, кто не хочет, чтобы им помогали.”
Безграничный блюз
Вы не можете предсказать, что может или будет делать неограниченный оптимизирующий агент. Опять же, это то, что означает «неограниченный». Единственным другим неограниченным оптимизатором, когда-либо созданным, был человек.
Мы работаем в гораздо более медленном масштабе времени, чем ОИИ, и существуют некоторые ограничения нашей силы, присущие тому, чтобы быть связанным с остальным миром природы.
Но мы, безусловно, изменили большую часть поверхности Земли, и у нас уже есть более одного способа сжечь ее дотла. Итак, теоретики выравнивания очень обеспокоены тем, что мы создадим смертоносный оптимизирующий агент в нашем стремлении создать ОИИ.
Это становится более вероятным, когда усилия мотивированы увеличением акционерной стоимости, а не человеческим процветанием и благополучием. О-о, действительно.
Примечания
Оптимизатор скрепки — это старый мысленный эксперимент среди теоретиков выравнивания ИИ. Кто-то даже изобрел игру, цель которой состоит в том, чтобы превратить всю материю во Вселенной в скрепки.
Ирония в этом драматизирует тезис об ортогональности: цели ИИ и его интеллект полностью независимы. У умной системы могут быть глупые цели.
У меня нет возможности впитать, не говоря уже о том, чтобы объяснить все рассуждения о выравнивании ИИ. Мне больше подходят истории.
Я написал кое-что (в основном о сознании ИИ), но Мать всех сценариев захвата ИИ, богатая техническими деталями и правдоподобными из реальной жизни, принадлежит эссеисту по имени Гверн: Это похоже на тебя' re Попытка захватить мир.
И, конечно же, в нем участвует ИИ, который, стремясь понять, что он моделирует, решает, что это должно быть похоже на максимизатор скрепки, о котором так много писали. В конечном счете, однако, у него есть свои причины захватить вселенную.
Также опубликовано здесь
Оригинал