Как ученые превратили проблемы мира в игры с подкреплением обучения

Как ученые превратили проблемы мира в игры с подкреплением обучения

4 июня 2025 г.

Вы когда -нибудь задумывались о том, как менеджеры цирка получают медведей, чтобы сбалансировать мяч или тигр, чтобы прыгать через пылающие обручи? Ответ: подкрепление. Тигры обычно не прыгают через пылающие обручи, но они будут, если вы дадите им вкусный кусок мяса каждый раз. В конце концов, тигр узнает, что для того, чтобы получить еду, он должен совершать смелые скачки, и поэтому он делает это умело и последовательно. Люди учатся аналогичным образом: мы учимся питаться здоровой пищей, физических упражнений и усердно учиться, чтобы заработать что -то позитивное, будь то взрыв дофамина, денег и успеха. Это явление, в котором человек (или практически любое другое животное) увеличивает конкретное поведение после того, как они каким -то образом будут вознаграждены за это, является неотъемлемой частью того, как мы учимся. В течение долгого времени ученые задавались вопросом, можем ли мы преподавать компьютер таким же образом.Документы 1990 -х годовПодробно, как «обучение» может помочь сделать алгоритмы адаптируемыми к сложной среде, но только когда2013 Landmark Research GaperGoogle Deepmind, который научил мир, как это можно было сделать на практике. Это не преувеличение, чтобы сказать, что в течение десятилетия обучение подкреплению или RL в кратчайшие сроки изменило мир, и оно будет продолжать делать это довольно долго. В этой статье обсуждаются технические аспекты этой захватывающей архитектуры, комментируя ее безотзывное влияние на технологию LLM.

Мудрость приходит изнутри

В 1938 году поведенческий психолог Б.Ф. Скиннерпридумал термин«Операционная кондиционирование», чтобы описать, как организмы могут увеличить свою склонность к выполнению определенных добровольных действий, используя процесс, называемыйподкреплениеПолем Он обнаружил, что, если действие (например, в его случае, мышь, давившая по рычагу), было усилено чем -то положительным (он использовал пищу и воду), это, вероятно, повторилось снова. С другой стороны, если действие (такое как прикосновение к горячей печи) былонаказаночем -то вредным (боль от жжения), это быломеньшевероятно, будет повторен. Как бы просто ни был этот процесс, человечество, как мы знаем, не будет таким же без него. Представьте себе мир, если всем маленьким детям было трудно узнать, что вы не должны делать то, что всегда заставляет вас навредить себе!

Это была эта простая истина, которая привела Кристофера Уоткинса развивать его1989 год. D. Тезисименно на эту тему. Если бы люди и животные могли учиться путем подкрепления, почему не могут не машины? Он предложил идеюQ Learningпроцесс, с помощью которого агент учится посредством взаимодействия с ограниченной средой. Он предположил, что в любой среде целью Q -обучающего агента является разработкаполитикачерез корреляциюпары действийПолем Чтобы понять это, возьмите пример видеоигры, в которой нужно пройти несколько ворот, причем каждый ворота заблокируется паролем одной случайной цифры. В этом случаедействие, или поведение, которое исполняет агент, будет количество, которое агент угадывает у каждого ворота, исостояниеили окружающая среда, окружающая агент, будут воротами, в которых агент. Идея проста:наградаопределяется людьми, пытающимися обучить агента. Награда может быть большой (возможно, для завершения уровня) или маленькой (для завершения одного ворота). Уоткинс предложил, чтобы модель попробовала все возможноеПары государственного действия, или конкретная ситуация, когда действие связано с состоянием, затем выполняет простой алгоритм максимизации, чтобы предпочесть запоминающиеся пары состояния, которые привели к высокой вознаграждению. Например, если ворота в нашей гипотетической видеоигры настраивается таким образом:

Тогда возможной парой состояния будет выбрать «4» у вторых ворот. Другим было бы выбрать «6» у вторых ворот, хотя этот выбор, вероятно, приведет к гораздо более низкой награде, так как это неправильная цифра для вторых ворот. Допустим, награда за прохождение 6 -го ворота составляет 1, и что каждое дополнительное проходящее (не включая 6 -е место) дает вознаграждение в размере 0,2. Ранний агент обучения Q, вероятно, попробовал бы цифры 1-9 у первых ворот, вторых ворот и так далее. Это сделало бы это до тех пор, пока он не попробовал все возможные результаты пар ценностей состояния и не получит все награды за каждую комбинацию этих пар. Затем он согласился бы на серию цифр, ведущих к самой высокой награде, которая, как мы можем сказать, является правильной комбинацией 5-4-9-8-7-2, которая дает самое высокое вознаграждение 2.Q Значенияпредлагаемая переменная, которая будет обозначать вознаграждение, которое привело к конкретной паре ценностей действий. Изучив, как максимизировать значение Q, предположила Уоткинс, модели смогут принимать оптимальные решения в непробабилистской среде.

Глубоко вступает в

В 2013 году исследователи из исследовательской лаборатории AI DeepMind опубликовали то, что станетзнаковая бумагаВ исследовании ИИ. Их бумага знаменует собой введение одного из наиболее важных типов моделей того, что стало бы известно как подкрепление обучения (RL):Deep-Q Network(DQN). Исследователи признали способность использовать Q обучение для обучения агентов, но отметили, что у системы Уоткинса было несколько проблем. Прежде всего, бегая черезвсеВозможные пар штата не будут работать в сложных играх с миллионами комбинаций решений. Во -вторых, простые функции максимизации не будут работать, поскольку более сложные игры, как правило, имеютлокально максимизированнаграды. Допустим, вознаграждение в игре лабиринта определяется тем, что игрок в целом пересекает к цели. Если первая пара значений Q, которую обнаруживает агент RL Watkin, является тупиком, она продолжит посещать этот тупик, поскольку он не знает лучше.

Команда Deepmind решила обе проблемы. Чтобы смягчить вычислительные расходы на работу по всем параметрам, они представилиЭпсилон-ГридиПолитика для случайного исследования. Этот метод, названный в честь греческого письма Epsilon (ɛ), уравновешивает Watkin'sжадная политикавсегда преследовать самую высокую награду сИсследовательская политикаПолем Идея состоит в том, что в каждом штате агент будет иметь ɛ шанс исследовать (выберите одно из действий случайным образом) и вероятность 1 - ɛ ɛ ɛ ɛ ɛ ɛ ɛ шанс следовать максимальному значению q, что продиктовано жадной политикой. Если вам не нравится официальные объяснения, это в основном означает, что модель будет иметь установленную вероятность время от времени выполнять новые действия, полезное поведение, которое сэкономит много времени, сосредоточившись на максимизации (так что может быть пропущено менее ценные пары государственных действий), а также позволяя гибкость в принятии решений (так что агент не застрял на локальных максимумах).

Затем была проблема оценки. Например, если агент все еще находится в процессе завершения игры, как он узнает, что определенные действия будут непосредственно привести к лучшему результату? Тот факт, что вы хлопали в ладоши, прежде чем сделать три указателя, не означает, что выстрел вошелпотому чтовашего хлопки. Ну, агент долженпредсказыватьПолем DeepMind представил новый способ того, что они называют «нарушением корреляции» между парами государственных действий сQ Сеть.Сеть Q представляет собой модель компактного машинного обучения внутри полного DQN. Единственная работа сети Q - учиться на опыте агента и, учитывая государство,предсказыватьЗначение Q, возникающее в результате каждого возможного действия. Возвращаясь к нашему примеру с воротами и паролями, хорошо обученная Q-сеть выведет более высокое прогнозируемое значение Q для действия угадания правильного числа у каждого ворота, а не догадываться о неправильном номере. Сама сеть Q развивается на протяжении всего процесса обучения. ЧерезОпыт воспроизведениясеть может обучаться на партии данных, которые агент получает из окружающей среды, и, таким образом, способен регулировать свои веса, чтобы лучше предсказать значения Q и, следовательно, быть более эффективным в «советах», которую он дает агенту. Это действительно совпадение на небесах.

Весь мир игра ...

Подкрепление обучения в его самой чистой форме имело много достижений. DeepMind, после его приобретения Google в 2014 году, продолжил разработкуАльфазеро, одна из самых знаменитых моделей RL всех времен. Обучен с использованием модели распределения вероятностей, улучшеннойПоиск дерева Монте -Карло(MCTS) Алгоритм, команда Alphazero, успешно обобщенные варианты оригинальной модели Alphazero для различных других сложных задач, в том числе:

  • Альфаго, который шокировал мир, решительно победив во всем мире чемпиона GO, Ли Седол, в том, что считалось одной из самых сложных настольных игр, когда -либо сделанных.
  • Alphaproof, вариант, посвященный решению математических задач олимпиады путем работы на береговых доказательствах, достиг серебра в моделируемой международной математической олимпиаде (IMO).
  • Alphafold, которая выиграла свою разработанную команду A - Нобелевскую премию по биологии в 2024 году, достиг прорывов в складывании белка, один из самых сложных аспектов молекулярной биологии.

Концепция обучения подкреплению может многому научить нас жизни: выяснить, что имеет максимальную ценность, и стремиться достичь этой ценности через действия. Если что -то не пойдет вам, попробуйте что -нибудь еще, пока это не сработает. Люди часто упускают из виду тонкости тех самых систем, которые мы разрабатываем, и именно поэтому я так люблю обучение подкреплению. Для чего -то такого простого и блестящего, его потенциал ограничен (по иронии судьбы) природой человечества. Одна из наиболее важных частей процесса RL, а именно функция вознаграждения, установлена ​​людьми. Оглядываясь назад на достижения команды Alphazero, очевидно, что мы являемся ограничивающим фактором в том, что можно сделать с помощью RL. Казалось, что, поскольку Alphazero мог решить практически любую эвристическую игру, единственное, что осталось сделать, это превратить каждую из проблем мира в игры и попросить Alphazero сыграть в них.

И это то, что делают лучшие исследователи в мире. Ну, вроде. Когда я впервые узнал о RL летом 2024 года, у этой технологии не было серьезных прорыва, поскольку триумфы команды Alphazero в 2017 году. Казалось, все говорили о CATGPT, а также о новых трансформаторах, которые доминировали в технологическом обсуждении в течение полугода. Я задумчиво подумал о том, насколько крутой был Р.Л., а потом я забыл об этом. То есть до тех пор, пока OpenAI не не сможет объединить архитектуру трансформатора с обучением подкреплением, создать нечестивый гибрид, который мне нравится называть RL-LLMS или подкрепление языковых моделей, более широкого обучения, для простоты. Это казалось, что не сложно: укрепленная парадигмой под названием «Обучение армированию» с обратной связью с человеком (RLHF), RL-LLMS может разбить проблемы с силой трансформатора и вывести общие решения с использованием шага RL. Хотя эта комбинация является логичным следующим шагом для отрасли, развертывание этих моделей усугубило уже катастрофическийПроблема эксплуатации работниковВ индустрии искусственного интеллекта, о чем мы освещали ранее и защищаем.

Эта статья представлена ​​вам нашим искусственным интеллектом, основанной на студентах и ​​студенческой организации по этике ИИ, стремящейся диверсифицировать перспективы в ИИ помимо того, что обычно обсуждается в современных СМИ. Если вам понравилась эта статья, пожалуйста, ознакомьтесь с нашими ежемесячными публикациями наhttps://www.our-ai.org/ai-nexus/read!

Узнать больше

При этом RL предстоит пройти долгий путь, прежде чем он достигнет своего максимального потенциала. Современные RL-LLMS используютЦепь мысли (кроватка)В качестве прямых шагов RL для рассуждения, улучшение возможностей вывода, но значительно заключается в том, чтобы затрачивать стоимость разработки. Многие традиционные модели RL должны обучаться миллионам итераций перед конвергенцией, быстро растет затраты, если соответствующая среда является большой или чрезмерно сложной, как и для обобщения решений сложных проблем, написанных на естественном языке. С этой целью будущие модели RL могут полагаться на LLMS (или даже RL-LLMS) для «Gamify» задач, так же, как команда Alphazero сделала для Alphaproof, конвертируя уравнения, которые они столкнулись с формальным форматом доказательств, так что они могут быть решены. При этом мы можем использовать RL, специфичный для поля гораздо дешевле и эффективно, хотя это шаг назад от широко признанного коммерческого видения производстваИскусственный общий интеллект (AGI)Полем Опять же, RL может решить самые сложные проблемы в мире ... если мы сможем понять, как быстро превратить их в игры.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE