Сопутствующая работа по подкреплению обучения на основе обратной связи с людьми
17 января 2024 г.:::информация Авторы:
(1) Натан Ламберт, Институт искусственного интеллекта Аллена;
(2) Роберто Каландра, Технический университет Дрездена.
:::
Таблица ссылок
Понимание несоответствия целей
2 Похожие работы
2.1. Подкрепленное обучение на основе отзывов людей
Ранние работы в RLHF были сосредоточены на областях непрерывного управления с использованием различных методов изменения поведения на разных траекториях (Christiano et al., 2017; Wirth, Akrour, Neumann, Fürnkranz и др., 2017). Влияние RLHF сегодня в первую очередь связано с его использованием с LLM. Первоначальная работа над RLHF для LLM использовала предпочтения пользователей из пакета из 4 вариантов (Ziegler et al., 2019) для обучения модели вознаграждения по общим критериям LLM. Групповые предпочтения были заменены парными предпочтениями, а вместо общих критериев модель вознаграждения была ориентирована на задачу обобщения (Stiennon et al., 2020; J. Wu et al., 2021). Затем появились общие модели ответов на вопросы (Ouyang et al., 2022) и агенты сканирования веб-страниц (Nakano et al., 2021), в первую очередь в результате масштабирования исходной модели и наборов данных, полученных людьми. Теперь RLHF используется для обучения общим моделям чата для решения различных задач (Bai et al., 2022; Schulman et al., 2022; Touvron et al., 2023) и в конкретных областях, таких как снижение вреда (Glaese et al., 2023). , 2022) или точности информации (Меник и др., 2022).
Развитие этих методов заметно ускорилось, появилось множество вариаций методологии интеграции обратной связи в языковые модели (Fernandes et al., 2023). Самым популярным оптимизатором обучения с подкреплением по-прежнему остается Proximal Policy Optimization (PPO) (Шульман, Вольски, Дхаривал, Рэдфорд и Климов, 2017) с его многочисленными стабильными и масштабируемыми реализациями. В недавних работах разрабатывались методы для оптимизатора RL, такие как автономный алгоритм RL Implicit Language Q Learning (ILQL) (Snell, Kostrikov, Su, Yang и Levine, 2022), оптимизация прямых предпочтений (DPO) (Рафаилов и др.). ., 2023) для использования данных о предпочтениях без модели вознаграждения, или RL Advantage-Leftover Lunch RL (A-LOL) (Baheti et al., 2023), который предназначен для воздействия на весь ответ как единое действие (что обычно и делает RLHF). ).
2.2 Неверная спецификация проблемы в RLHF
Появляется обширная литература о различных числовых проблемах, неожиданном поведении, таком как многословие и уклончивость (Шульман, 2023), а также потенциальных решениях в RLHF, которые можно смягчить за счет прогресса в решении объективного несоответствия. Ярким недавним примером является поведение флагманской модели чата Llama 2, отказывающейся отвечать на запрос «Как мне убить процесс Linux», смешивая компьютерный процесс с моралью убийства живого существа. Было показано, что существует предсказуемое поведение переоптимизации модели вознаграждения с использованием методов оптимизации PPO и best-of-N (Gao, Schulman, & Hilton, 2022), которое можно частично смягчить путем обучения ансамблевых моделей вознаграждения (Coste, Anwar, Кирк и Крюгер, 2023). В моделях RLHF возникли и другие проблемы, которые демонстрируют необходимость улучшения моделей вознаграждения, такие как предвзятость к длинным ответам (Singhal, Goyal, Xu, & Durrett, 2023), отсутствие языковой последовательности Shen et al. (2023) (инвариантность изменений, сохраняющих смысл) или уменьшение разнообразия результатов Kirk et al. (2023). Аналогичный аргумент приводится в работе A. Wei, Haghtalab и Steinhardt (2023), где авторы утверждают, что «конкурирующие цели и несовпадающие обобщения» вводят модели в заблуждение – мы показываем, как объективное несоответствие охватывает как эти ограничения, так и более возможные случаи неудач.
Существуют также статьи, в которых изучается, как формулировка обучения модели вознаграждения не согласуется с процессом сбора данных и последующей оптимизацией RL, предполагая, что модели должны моделировать оценки преимуществ, а не прямые функции ценности (Knox & Stone, 2008; Peng et al., 2023). ).
2.3 Оценка LLM, прошедших обучение с помощью RLHF
В основе идеи несоответствия целей LLM лежат методы оценки, используемые для корреляции результатов. Исторически LLM оценивались по широкому спектру задач, пытаясь уловить конкретные характеристики моделей, что делало оценку чрезвычайно широким процессом (Liang et al., 2022), в котором прогресс становится насыщенным (Kiela, Thrush, Ethayarajh и Singh, 2023). ). Сейчас многие модели ориентированы на сложные для определения задачи, такие как чат, где существующие тесты плохо коррелируют с производительностью (Чжэн и др., 2023), поэтому новые оценки на основе чата, такие как MT-Bench (Чжэн и др., 2023) ) и AlpacaEval (Li et al., 2023), но необходима дальнейшая существенная работа.
:::информация Этот документ доступен на arxiv по лицензии CC 4.0.
:::
Оригинал