
Предсказание с несколькими точками: преодоление несоответствия обучающего инференции в LLMS
6 июня 2025 г.Таблица ссылок
Аннотация и 1. Введение
2. Метод
3. Эксперименты по реальным данным
3.1. Шкала преимуществ с размером модели и 3,2. Более быстрый вывод
3.3. Изучение глобальных моделей с помощью мульти-байтового прогноза и 3.4. Поиск оптимальногоне
3.5. Обучение для нескольких эпох и 3.6. Создание нескольких предикторов
3.7 Многократный прогноз на естественном языке
4. Абляции на синтетических данных и 4.1. Индукционная способность
4.2. Алгоритмические рассуждения
5. Почему это работает? Некоторые спекуляции и 5.1. Lookahead Укрепляет очки выбора
5.2. Информация теоретичный аргумент
6. Связанная работа
7. Заключение, Заявление о воздействии, воздействие на окружающую среду, подтверждения и ссылки
A. Дополнительные результаты по самопрокативному декодированию
Б. Альтернативные архитектуры
C. Скорость тренировок
D. МАГАЗИН
E. Дополнительные результаты по поведению масштабирования модели
F. Подробности о CodeContests Manetuning
G. Дополнительные результаты по сравнению с естественным языком
H. Дополнительные результаты по абстрактному текстовому суммированию
I. Дополнительные результаты по математическим рассуждениям на естественном языке
J. Дополнительные результаты по индукционному обучению
K. Дополнительные результаты по алгоритмическим рассуждениям
L. Дополнительные интуиции по многоцелевым прогнозам
М. Обучение гиперпараметры
7. Заключение
Мы предложили многократный прогноз в качестве улучшения по сравнению с предсказанием следующего ток в моделях обучения языковых моделях для генеративных или рассуждений. Наши эксперименты (до 7b параметры и токены 1T) показывают, что это становится все более полезным для более крупных моделей и, в частности, демонстрирует сильные улучшения для задач кода. Мы утверждаем, что наш метод уменьшает несоответствие распределения между обучением, основанным на учителях и ауторегрессивным поколением. При использовании с спекулятивным декодированием точный вывод становится в 3 раза быстрее.
В будущей работе мы хотели бы лучше понять, как автоматически выбирать N в нескольких потери прогноза. Одна возможность сделать это - использовать шкалы потерь и баланс потерь (Défossez et al., 2022). Кроме того, оптимальные размеры словарного запаса для многотоконечного прогноза, вероятно, отличаются от таковых для прогнозирования следующего ток, и настройка их может привести к лучшим результатам, а также для улучшения компромиссов между длиной сжатой последовательности и расходами на вычисление на байт. Наконец, мы хотели бы разработать улучшенные потери вспомогательных прогнозов, которые работают в встроенных пространствах (Lecun, 2022).
Заявление о воздействии
Цель этого документа - сделать языковые модели более вычислительными и эффективными данных. Хотя это может в принципе уменьшить экологическое влияние обучения LLM, мы будем осторожны с последствиями отскока. Все социальные преимущества, а также риски, должны рассматриваться при использовании этой работы.
Воздействие на окружающую среду
В совокупности обучение всем моделям, сообщаемым в статье, требуется около 500 тыс. ГПУ часов вычислений на оборудовании типа A100-80GB и H100. Расчетные общие выбросы составляли около 50 TCO2EQ, 100% из которых были компенсированы программой устойчивого развития Meta.
Благодарности
Мы благодарим Цзянью Чжана, Леона Ботту, Эммануэля Дюпо, Пьер-Эммануэля Мазаре, Янна Лекуна, Квентина Гарридо, Меги Дервиши, Матхурин Видо и Тимофе Дарсет и других студентов из справедливой докторской степени и членов команды Codegen для полезных обсуждений. Мы благодарим Джонаса Геринга за его техническую экспертизу и оригинальную команду Llama Team и Xformers за предоставление такого рода исследований.
Ссылки
Джейкоб Остин, Август Оденена, Максвелл Най, Мартен Босма, Генрик Михалевски, Дэвид Дохан, Эллен Цзян, Кэрри Цай, Майкл Терри, Кук Ле, et al. Синтез программы с большими языковыми моделями. Arxiv Preprint arxiv: 2108.07732, 2021.
Грегор Бахманн и Вайшнав Нагараджан. Подводные камни следующего предсказания, 2024 года.
Сами Бенгио, Ориол Виньялс, Навдип Джайтли и Ноам Шейзер. Запланированная выборка для прогнозирования последовательности с рецидивирующими нейронными сетями, 2015.
Йонатан Биск, Роуэн Зеллерс, Ронан Ле Брас, Цзянфэн Гао и Йецзин Чой. PIQA: Рассуждение о физическом здравом смысле на естественном языке, 2019.
Тянле Цай, Юхонг Ли, Чженгьян Генг, Хонгву Пенг, Джейсон Д. Ли, Деминг Чен и Три Дао. Medusa: Simple LLM -вывода структура ускорения с несколькими декодирующими головками, 2024.
Рич Каруана. Многозадачное обучение. Машинное обучение, 28: 41–75, 1997.
Марк Чен, Джерри Творек, Хевоу Джун, Циминг Юань, Энрике Понде, Джаред Каплан, Харри Эдвардс, Юра Бурда, Николас Джозеф, Грег Брокман и др. Оценка крупных языковых моделей, обученных коду. Arxiv Preprint arxiv: 2107.03374, 2021.
Нахун Чумпольсатиен. Использование дистилляции знаний от извлечения ключевых слов для повышения информативности нейронного кросс-лингального суммирования. Мастерская диссертация, Пекинский технологический институт, 2020.
Карл Кобб, Винеет Косараджу, Мохаммад Баварский, Марк Чен, Хивоо Джун, Лукаш Кайзер, Матиас Плапперт, Джерри Творек, Джейкоб Хилтон, Рейхиро Накано, et al. Обучение проверки для решения проблем по математике. Arxiv Preprint arxiv: 2110.14168, 2021.
Ли Донг, Нан Ян, Венхуи Ван, Фуру Вэй, Сяодон Лю, Ю Ван, Цзянфенг Гао, Мин Чжоу и Сяо-Вуэн Хон. Unified Language Model перед тренировкой для понимания естественного языка и поколения. В материалах 33 -й Международной конференции по системам обработки нейронной информации, страницы 13063–13075, 2019.
Александр Дефоссес, Джейд Копет, Габриэль Синнев и Йосси Ади. Высокая верность нейронного сжатия звука. Arxiv Preprint arxiv: 2210.13438, 2022.
Мусса Камаль Эддин, Антуан Дж. П. Тиксер и Михалис Вазиргианнис. Бартез: квалифицированная модель французской последовательности в предварительном виде, 2021.
Александр Р. Фаббри, Ирен Ли, Тянвей она, Сьюи Ли и Драгомир Р. Радев. Multi-News: крупномасштабный набор данных с множественной суммированием и абстрактная иерархическая модель, 2019.
Мехрддад Фарахани. Суммизация с использованием модели Bert2bert на наборе данных Wikisummary. https://github.com/m3hrdadfi/wikisummary, 2020.
Мехрддад Фарахани, Мохаммад Гарахорлу и Мохаммад Мантурри. Использование Парсберта и предварительного MT5 для суммирования персидского абстрактного текста. В 2021 году 26 -я Международная компьютерная конференция, Компьютерное общество Ирана (CSICC). IEEE, март 2021 года. DOI: 10.1109/ CSICC52343.2021.9420563. URL http: //dx.doi. org/10.1109/csicc52343.2021.9420563.
Майкл С Фрэнк. Соединение разрыва данных между детьми и моделями крупных языков. Тенденции в когнитивных науках, 2023.
Богдан Глива, Ивона Мочол, Макия Бизек и Александр Вауэр. Samsum Corpus: набор данных диалога, аннулированный человеком для абстрактной суммирования. В материалах 2 -го семинара по новым границам при суммировании. Ассоциация вычислительной лингвистики, 2019. DOI: 10.18653/V1/D19-5409. URL http: //dx.doi.org/10.18653/v1/d19-5409.
Сачин Гоял, Зивей Джи, Анкит Сингх Рават, Адитья Кришна Менон, Санджив Кумар и Вайшнав Нагараджан. Подумайте, прежде чем говорить: модели обучения языку с токенами Pause, 2023.
Дэн Хендриккс, Стивен Басарт, Саурав Кадават, Мант Мазейка, Акул Арора, Итан Го, Коллин Бернс, Самир Пураник, Гораций Х. Х., Доун Сонд и др. Измерение компетентности кодирования с приложениями. Arxiv Preprint arxiv: 2105.09938, 2021.
Ари Хольцман, Ян Буйс, Ли Дю, Максвелл Форбс и Йецзин Чой. Любопытный случай дегенерации нервного текста, 2020.
Цзянью Чжан Леон Ботту. Классификация с несколькими маршрутами как вспомогательная потеря для языкового моделирования. Личное общение, 2024.
Мандар Джоши, Юнсол Чой, Даниэль С. Уэлд и Люк Зеттлемойер. Viriviaqa: крупномасштабный набор данных с отдаленным контролем для понимания прочитанного, 2017.
Дидерик Кингма и Джимми Ба. Адам: метод стохастической оптимизации. ICLR, 2015.
Райан Ку, Минва Ли, Випул Рахей, Чонн Парк, Зей Мюнг Ким и Донгиоп Кан. Брингеринг когнитивных предубеждений в крупных языковых моделях в качестве оценщиков. Arxiv Preprint arxiv: 2309.17012, 2023.
Том Квиатковски, Дженнимария Паломаки, Оливия Редфилд, Майкл Коллинз, Анкур Парих, Крис Альберти, Даниэль Эпштейн, Иллиа Полосухин, Мэтью Келси, Джейкоб Девлин, Кентон Ли, Кристина Н. Тутанов, Ллион Джонс, Мингвей Чанг, и Дей, Джабор, Джайт -Короб, Джал -Короб, Джал -Короб, Джабор, Джайт -Короб, Джайт -О. и Слав Петров. Природные вопросы: эталон для вопросов, отвечающий на исследования. Транзакции Ассоциации вычислительной лингвистики, 2019.
Гийом Лэмпл, Мари-Энн Лахау, Тибо Лаврил, Ксавье Мартинет, Амари Хаят, Габриэль Эбнер, Аурелиен Родригес и Тимофеи Лакруа. Поиск гипертрии по поиску нейронной теоремы, 2022 года.
Янн Лекун. Путь к автономной машинной интеллектуальной версии 0.9. 2, 2022-06-27. Открытый обзор, 62 (1), 2022.
Бенджамин Лефаудекс, Франциско Масса, Диана Лискович, Венхан Синь, Витторио Каггиано, Шон Нарен, Мин Сюй, Джеру Ху, Марта Тинторе, Сьюзан Чжан, Патрик Лабатут и Даниэль Хазиза. Xformers: модульная и взломанная библиотека моделирования трансформаторов. https: // github. com/facebookresearch/xformers, 2022.
Янив Левиафан, Матан Калман и Йосси Матиас. Быстрый вывод от трансформаторов через спекулятивное декодирование, 2023.
Юджия Ли, Дэвид Чой, Джунинг Чунг, Нейт Кушман, Джулиан Шритвизер, Реми Леблонд, Том Экклс, Джеймс Килинг, Феликс Гимено, Агустин Дал Лаго и др. Генерация кода на уровне конкуренции с альфакодом. Science, 378 (6624): 1092–1097, 2022.
Чин-ха-Лин. Руж: пакет для автоматической оценки резюме. В текстовом обобщении разветвляется, страницы 74–81, Барселона, Испания, июль 2004 г. Ассоциация вычислительной лингвистики. URL https: //aclanthology.org/w04-1013.
Zhenghao Lin, Zhibin Gou, Yeyun Gong, Xiao Liu, Yelong Shen, Ruochen Xu, Chen Lin, Yujiu Yang, Jian Jiao, Nan Duan и Weizhu Chen. RHO-1: Не все токены-это то, что вам нужно, 2024.
Илья Лошчилов и Фрэнк Хаттер. SGDR: Стохастический градиент спуск с теплыми перезапуску, 2017.
Илья Лошчилов и Фрэнк Хаттер. Разрешенная регуляризация распада веса, 2019.
Майкл Матье, Камилла Купри и Янн Лекун. Глубокий многомасштабный прогноз видео за пределами средней квадратной ошибки, 2016.
Рамеш Наллапати, Боуэн Чжоу, Цицерон Ногейра Дос Сантос, Каглар Гулсер и Бинг Сян. Абстрактное текстовое обобщение с использованием RNNS-последовательности к последовательности и за его пределами, 2016.
Шаши Нараян, Шей Б. Коэн и Мирелла Лапата. Не дайте мне подробностей, просто резюме! Тематические сверточные нейронные сети для экстремального суммирования, 2018.
Кэтрин Олссон, Нельсон Элхадж, Нил Нанда, Николас Джозеф, Нова Дассарма, Том Хениган, Бен Манн, Аманда Аскалл, Юнтао Бай, Анна Чен, Том Конингли, Дренал Дрена, глубокий Гангули, Джексон-Доддс, Дэнни Хернандес, Скотт Джонстон, Анти Джанс, Яньянт, Ландион, Дэнни, Дэнни, Дэнни, Дэнни, Дэнни, Дэнни, Дэнни, Дэнни, Дэнни, Дэнни, Дэнни, Дэнни, Дэнни, Дэнни, Дэнни, Дэнни, Дэнни, Дэнни, Дэнни, Дэнни, Дэнни, Дэнни, Дэнни, Дэнни. Ndousse, Dario Amodei, Том Браун, Джек Кларк, Джаред Каплан, Сэм МакКандлиш и Крис Олах. Внутри контекста обучают и индукционные головы. Цепи трансформатора, 2022. https://transformer-circuits.pub/2022/in-contextlearning-and-induction-dies/index.html.
Openai. Технический отчет GPT-4, 2023.
Лонг Оуян, Джефф Ву, Сюй Цзян, Диого Алмейда, Кэрролл Л. Уэйнрайт, Памела Мишкин, Чонг Чжан, Сандхини Агарвал, Катарина Слама, Алекс Рэй, Джон Шульман, Джейкоб Хилтон, Фрейзер Келтон, Луке Миллер, Мэдди Сименс, Аманда Аска, Питер -Лиййй, Пол, Пол, Паул, Пол, Пол, Паулдеро, Пол, Пол, Пол, Пол, Пол, Паулдеро, Пол, Паулдеро, Пол, Паул, Пол, Паул, Паул, Паул, Паул, Паул, Паул, Паул, Паул, Паул, Паул, Паул, Паул, Паул, Паул, Паул, Паул, Паул, Паул, Паул, Паул, Паул. Лоу. Обучающие языковые модели, чтобы следовать инструкциям с отзывом человека, 2022.
Койена Пал, Джудинг Сан, Эндрю Юань, Байрон С. Уоллес и Дэвид Бау. Будущий объектив: ожидание последующих токенов от одного скрытого состояния, 2023.
Вейзхен Ци, Ю Ян, Юн Гонг, Дайхенг Лю, Нан Дуан, Джиушенг Чен, Руофей Чжан и Мин Чжоу. Пророкнет: прогнозирование будущего N-граммы для предварительного обучения последовательности к последовательности, 2020.
Джесси Рид, Бернхард Пфахрингер, Джеффри Холмс и Эйб Фрэнк. Цепочки классификатора: обзор и перспективы. Журнал исследований искусственного интеллекта, 70: 683–718, 2021.
Мелисса Реммеле, Космин Адриан Бехан и Эндрю С. Гордон. Выбор правдоподобных альтернатив: оценка причинно -следственных рассуждений здравого смысла. В 2011 году Spring Symposium Series, 2011.
Мартен Сап, Ханна Рашкин, Дерек Чен, Ронан Лебрас и Йецзин Чой. Socialiqa: Рассуждения об общественном взаимодействии, 2019.
Дэвид Сильвер, Аджа Хуанг, Крис Дж. Мэддисон, Артур Гуз, Лорат Сифре, Джордж Ван Ден Дриесше, Джулиан Шритвизер, Иоаннис Антоноглу, Веда Паннеершельвам, Марк Ланктот и др. Освоение игры с глубокими нейронными сетями и поиском деревьев. Nature, 529 (7587): 484–489, 2016.
Аадита К Сингх, Стефани Сай Чан, Тед Московиц, Эрин Грант, Эндрю М. Саксе и Феликс Хилл. Переходная природа возникающего в контекстом обучении в трансформаторах. Arxiv Preprint arxiv: 2311.08360, 2023.
Eleftherios Spyromitros-Xioufis, Grigorios Tsoumakas, William Groves и Ioannis vlahavas. Многоцелевая регрессия посредством расширения входного пространства: обработка целей как входных данных. Машинное обучение, 104: 55–98, 2016.
Нитиш Шривастава, Элман Мансимов и Руслан Салахутдинов. Неконтролируемое изучение видео -представлений с использованием LSTMS, 2016.
Митчелл Стерн, Ноам Шейзер и Якоб Ускорет. Блоковое параллельное декодирование для глубоких авторегрессивных моделей, 2018.
Йи Тэй, Мостафа Дехгани, Вин Q Тран, Ксавье Гарсия, Джейсон Вей, Сюэжи Ван, Хен Вон Чунг, Сиамак Шейкер, Дара Бахри, Тал Шустер и др. UL2: Объединение парадигм изучения языка. Arxiv Preprint arxiv: 2205.05131, 2022.
Владимир Вапник и Акшай Вашист. Новая учебная парадигма: обучение с использованием привилегированной информации. Нейронные сети, 22 (5-6): 544–557, 2009.
Карл Вондрик, Хамед Пирсиаваш и Антонио Торралба. Ожидая визуальные представления от немеченых видео, 2016.
Виллем Вагеман, Krzysztof Dembczynski и Eyke 'Hüllermeier. Многоцелевое предсказание: объединяющий взгляд на проблемы и методы. Рабочие данные и обнаружение знаний, 33: 293–324, 2019.
Викас Ядав, Стивен Бетхард и Михай Сурдеану. Быстрый и (не такой) грязный: неконтролируемый выбор оправдательных предложений для ответа на вопрос с несколькими ходами. Arxiv Preprint arxiv: 1911.07176, 2019.
Жилин Ян, Зиханг Дай, Йиминг Ян, Хайме Карбонэлл, Расс Р. Салахутдинов и Quoc v le. XLnet: Обобщенная авторегрессивная предварительная подготовка для понимания языка. В результате достижений в системах обработки нейронной информации, страницы 5753–5763, 2019.
Роуэн Зеллерс, Ари Хольцман, Йонатан Биск, Али Фархади и Еджин Чой. Hellaswag: Может ли машина действительно закончить ваше предложение?, 2019.
Эта статья естьДоступно на ArxivПод CC по лицензии 4.0.
Авторы:
(1) Фабиан Глокл, ярмарка в Meta, Cermics Ecole des Ponts Paristech и внес свой вклад;
(2) Badr Youbi Idrissifair в Meta, Lisn Université Paris-Saclay и внес свой вклад;
(3) Baptiste Rozière, ярмарка в Meta;
(4) Дэвид Лопес-Паз, ярмарка в Мете и его последний автор;
(5) Габриэль Синнев, ярмарка в Meta и последний автор.
Оригинал