
Как ученые превратили проблемы мира в игры с подкреплением обучения
4 июня 2025 г.Вы когда -нибудь задумывались о том, как менеджеры цирка получают медведей, чтобы сбалансировать мяч или тигр, чтобы прыгать через пылающие обручи? Ответ: подкрепление. Тигры обычно не прыгают через пылающие обручи, но они будут, если вы дадите им вкусный кусок мяса каждый раз. В конце концов, тигр узнает, что для того, чтобы получить еду, он должен совершать смелые скачки, и поэтому он делает это умело и последовательно. Люди учатся аналогичным образом: мы учимся питаться здоровой пищей, физических упражнений и усердно учиться, чтобы заработать что -то позитивное, будь то взрыв дофамина, денег и успеха. Это явление, в котором человек (или практически любое другое животное) увеличивает конкретное поведение после того, как они каким -то образом будут вознаграждены за это, является неотъемлемой частью того, как мы учимся. В течение долгого времени ученые задавались вопросом, можем ли мы преподавать компьютер таким же образом.
Мудрость приходит изнутри
В 1938 году поведенческий психолог Б.Ф. Скиннер
Это была эта простая истина, которая привела Кристофера Уоткинса развивать его
Тогда возможной парой состояния будет выбрать «4» у вторых ворот. Другим было бы выбрать «6» у вторых ворот, хотя этот выбор, вероятно, приведет к гораздо более низкой награде, так как это неправильная цифра для вторых ворот. Допустим, награда за прохождение 6 -го ворота составляет 1, и что каждое дополнительное проходящее (не включая 6 -е место) дает вознаграждение в размере 0,2. Ранний агент обучения Q, вероятно, попробовал бы цифры 1-9 у первых ворот, вторых ворот и так далее. Это сделало бы это до тех пор, пока он не попробовал все возможные результаты пар ценностей состояния и не получит все награды за каждую комбинацию этих пар. Затем он согласился бы на серию цифр, ведущих к самой высокой награде, которая, как мы можем сказать, является правильной комбинацией 5-4-9-8-7-2, которая дает самое высокое вознаграждение 2.Q Значенияпредлагаемая переменная, которая будет обозначать вознаграждение, которое привело к конкретной паре ценностей действий. Изучив, как максимизировать значение Q, предположила Уоткинс, модели смогут принимать оптимальные решения в непробабилистской среде.
Глубоко вступает в
В 2013 году исследователи из исследовательской лаборатории AI DeepMind опубликовали то, что станет
Команда Deepmind решила обе проблемы. Чтобы смягчить вычислительные расходы на работу по всем параметрам, они представилиЭпсилон-ГридиПолитика для случайного исследования. Этот метод, названный в честь греческого письма Epsilon (ɛ), уравновешивает Watkin'sжадная политикавсегда преследовать самую высокую награду сИсследовательская политикаПолем Идея состоит в том, что в каждом штате агент будет иметь ɛ шанс исследовать (выберите одно из действий случайным образом) и вероятность 1 - ɛ ɛ ɛ ɛ ɛ ɛ ɛ шанс следовать максимальному значению q, что продиктовано жадной политикой. Если вам не нравится официальные объяснения, это в основном означает, что модель будет иметь установленную вероятность время от времени выполнять новые действия, полезное поведение, которое сэкономит много времени, сосредоточившись на максимизации (так что может быть пропущено менее ценные пары государственных действий), а также позволяя гибкость в принятии решений (так что агент не застрял на локальных максимумах).
Затем была проблема оценки. Например, если агент все еще находится в процессе завершения игры, как он узнает, что определенные действия будут непосредственно привести к лучшему результату? Тот факт, что вы хлопали в ладоши, прежде чем сделать три указателя, не означает, что выстрел вошелпотому чтовашего хлопки. Ну, агент долженпредсказыватьПолем DeepMind представил новый способ того, что они называют «нарушением корреляции» между парами государственных действий сQ Сеть.Сеть Q представляет собой модель компактного машинного обучения внутри полного DQN. Единственная работа сети Q - учиться на опыте агента и, учитывая государство,предсказыватьЗначение Q, возникающее в результате каждого возможного действия. Возвращаясь к нашему примеру с воротами и паролями, хорошо обученная Q-сеть выведет более высокое прогнозируемое значение Q для действия угадания правильного числа у каждого ворота, а не догадываться о неправильном номере. Сама сеть Q развивается на протяжении всего процесса обучения. ЧерезОпыт воспроизведениясеть может обучаться на партии данных, которые агент получает из окружающей среды, и, таким образом, способен регулировать свои веса, чтобы лучше предсказать значения Q и, следовательно, быть более эффективным в «советах», которую он дает агенту. Это действительно совпадение на небесах.
Весь мир игра ...
Подкрепление обучения в его самой чистой форме имело много достижений. DeepMind, после его приобретения Google в 2014 году, продолжил разработку
- Альфаго, который шокировал мир, решительно победив во всем мире чемпиона GO, Ли Седол, в том, что считалось одной из самых сложных настольных игр, когда -либо сделанных.
- Alphaproof, вариант, посвященный решению математических задач олимпиады путем работы на береговых доказательствах, достиг серебра в моделируемой международной математической олимпиаде (IMO).
- Alphafold, которая выиграла свою разработанную команду A - Нобелевскую премию по биологии в 2024 году, достиг прорывов в складывании белка, один из самых сложных аспектов молекулярной биологии.
Концепция обучения подкреплению может многому научить нас жизни: выяснить, что имеет максимальную ценность, и стремиться достичь этой ценности через действия. Если что -то не пойдет вам, попробуйте что -нибудь еще, пока это не сработает. Люди часто упускают из виду тонкости тех самых систем, которые мы разрабатываем, и именно поэтому я так люблю обучение подкреплению. Для чего -то такого простого и блестящего, его потенциал ограничен (по иронии судьбы) природой человечества. Одна из наиболее важных частей процесса RL, а именно функция вознаграждения, установлена людьми. Оглядываясь назад на достижения команды Alphazero, очевидно, что мы являемся ограничивающим фактором в том, что можно сделать с помощью RL. Казалось, что, поскольку Alphazero мог решить практически любую эвристическую игру, единственное, что осталось сделать, это превратить каждую из проблем мира в игры и попросить Alphazero сыграть в них.
И это то, что делают лучшие исследователи в мире. Ну, вроде. Когда я впервые узнал о RL летом 2024 года, у этой технологии не было серьезных прорыва, поскольку триумфы команды Alphazero в 2017 году. Казалось, все говорили о CATGPT, а также о новых трансформаторах, которые доминировали в технологическом обсуждении в течение полугода. Я задумчиво подумал о том, насколько крутой был Р.Л., а потом я забыл об этом. То есть до тех пор, пока OpenAI не не сможет объединить архитектуру трансформатора с обучением подкреплением, создать нечестивый гибрид, который мне нравится называть RL-LLMS или подкрепление языковых моделей, более широкого обучения, для простоты. Это казалось, что не сложно: укрепленная парадигмой под названием «Обучение армированию» с обратной связью с человеком (RLHF), RL-LLMS может разбить проблемы с силой трансформатора и вывести общие решения с использованием шага RL. Хотя эта комбинация является логичным следующим шагом для отрасли, развертывание этих моделей усугубило уже катастрофический
Эта статья представлена вам нашим искусственным интеллектом, основанной на студентах и студенческой организации по этике ИИ, стремящейся диверсифицировать перспективы в ИИ помимо того, что обычно обсуждается в современных СМИ. Если вам понравилась эта статья, пожалуйста, ознакомьтесь с нашими ежемесячными публикациями наhttps://www.our-ai.org/ai-nexus/read!
Узнать больше
При этом RL предстоит пройти долгий путь, прежде чем он достигнет своего максимального потенциала. Современные RL-LLMS используют
Оригинал