Непревзойденная эффективность LLM: многократный прогноз революционизирует производительность между доменами

Непревзойденная эффективность LLM: многократный прогноз революционизирует производительность между доменами

18 июля 2025 г.

Аннотация и 1. Введение

2. Метод

3. Эксперименты по реальным данным

4. Абляции на синтетических данных

5. Почему это работает? Некоторые предположения

6. Связанная работа

7. Заключение, Заявление о воздействии, воздействие на окружающую среду, подтверждения и ссылки

A. Дополнительные результаты по самопрокативному декодированию

Б. Альтернативные архитектуры

C. Скорость тренировок

D. МАГАЗИН

E. Дополнительные результаты по поведению масштабирования модели

F. Подробности о CodeContests Manetuning

G. Дополнительные результаты по сравнению с естественным языком

H. Дополнительные результаты по абстрактному текстовому суммированию

I. Дополнительные результаты по математическим рассуждениям на естественном языке

J. Дополнительные результаты по индукционному обучению

K. Дополнительные результаты по алгоритмическим рассуждениям

L. Дополнительные интуиции по многоцелевым прогнозам

М. Обучение гиперпараметры

3. Эксперименты по реальным данным

Мы демонстрируем эффективность потерь предсказания с несколькими точками на семь крупномасштабных экспериментов. В разделе 3.1 показано, как многократный прогноз становится все более полезным при увеличении размера модели. Раздел 3.2 показывает, как дополнительные головки прогнозирования могут ускорить вывод в 3 × с использованием спекулятивного декодирования. Раздел 3.3 демонстрирует, как мульти-ток-прогноз способствует более долгосрочным моделям обучения, что является наиболее очевидным в крайнем случае токенизации уровня байта. Раздел 3.4 показывает, что 4-то-ток-предиктор приводит к сильным достижениям с токенизатором размера 32K. Раздел 3.5 иллюстрирует, что преимущества многоцелевого прогноза остаются для обучения с несколькими эпохами. Раздел 3.6 демонстрирует богатые представления, продвигаемые в результате предварительной подготовки с несколькими потери прогнозирования путем создания набора данных CodeContests (Li et al., 2022). Раздел 3.7 показывает, что преимущества мульти-токного прогнозирования перенесены на модели естественного языка, улучшаяГенеративныйОценки, такие как суммирование, при этом не регрессируют значительно на стандартных контрольных показателях, основанных на вопросах с множественным выбором и негативным логарифмическим правдоподобием.

Чтобы обеспечить справедливое сравнение между предикторами следующих ток и предикторов N-Token, эксперименты, которые следуют, всегда сравнивают модели с одинаковым количеством параметров. То есть, когда мы добавляемне- 1 слои в будущих головках прогнозирования, мы удаляемне- 1 слои из общей модели ствола. Пожалуйста, обратитесь к таблице S14 для модельных архитектур и таблице S13 для обзора гиперпараметров, которые мы используем в наших экспериментах.

3.1. Шкала преимуществ с размером модели

Чтобы изучить это явление, мы обучаем модели из шести размеров в параметрах диапазона от 300 до 13B с нуля на по меньшей мере 91B токенах кода. Оценка приводит на рисунке 3 для MBPP (Austin et al., 2021) и Humaneval (Chen et al., 2021), показывают, что возможно, с точно таким же вычислительным бюджетом, чтобы выжать гораздо большую производительность из крупных языковых моделей, полученных с фиксированным набором данных с использованием многоцелевого прогнозирования.

Figure 3: Results of n-token prediction models on MBPP by model size. We train models of six sizes in the range or 300M to 13B total parameters on code, and evaluate pass@1,10,100 on the MBPP (Austin et al., 2021) and HumanEval (Chen et al., 2021) benchmark with 1000 samples. Multi-token prediction models are worse than the baseline for small model sizes, but outperform the baseline at scale. Error bars are confidence intervals of 90% computed with bootstrapping over dataset samples.

Мы верим в этополезность только в масштабеЧтобы быть вероятной причиной, почему многократный прогноз до сих пор в значительной степени упускается из виду как многообещающая потери тренировок для обучения модели с большой языком.

3.2. Более быстрый вывод

Мы внедряем жадныхСамопрокулятивное декодирование(Stern et al., 2018) с гетерогенными размерами партий с использованием Xformers (Lefaudeux et al., 2022) и измеряйте скорости декодирования нашей лучшей 4-то-точной модели прогнозирования с параметрами 7b при завершении подсказок, взятых из тестового набора данных кода и естественного языка (таблица S2), не наблюдаемые во время обучения. Мы наблюдаем ускорение 3,0 × код в среднем 2,5 принятых токена из 3 предложений по коду и 2,7 × на текст. На 8-байтовой модели прогнозирования ускорение вывода составляет 6,4 × (таблица S3). Предварительная подготовка с помощью многократного прогноза позволяет дополнительным головкам быть гораздо более точными, чем простое создание модели предсказания следующей точки, что позволяет нашим моделям разблокировать полный потенциал самопроизвольного декодирования.

Table 1: Multi-token prediction improves performance and unlocks efficient byte level training. We compare models with 7B parameters trained from scratch on 200B and on 314B bytes of code on the MBPP (Austin et al., 2021), HumanEval (Chen et al., 2021) and APPS (Hendrycks et al., 2021) benchmarks. Multi-token prediction largely outperforms next token prediction on these settings. All numbers were calculated using the estimator from Chen et al. (2021) based on 200 samples per problem. The temperatures were chosen optimally (based on test scores; i.e. these are oracle temperatures) for each model, dataset and pass@k and are reported in Table S12.

3.3. Обучение глобальным моделям с помощью много-байтового прогнозирования

Чтобы показать, что задача прогнозирования следующего ток привязывает локальные шаблоны, мы обратились к экстремальному случаю токенизации уровня байта, обучая трансформатор уровня параметров 7B на байтах 314B, что эквивалентно около 116B токенс. 8-байтовая модель прогнозирования достигает поразительных улучшений по сравнению с предсказанием следующего, решая на 67% больше проблем при проходе MBPP при проходе@1 и 20% больше проблем при проходе Гуманевала@1.

Поэтому многообещающий прогноз является очень многообещающим проспектом, чтобы открыть эффективное обучение моделей уровня байта. Самоспективное декодирование может достичь ускорения в 6 раз для 8-байтовой модели прогнозирования, что позволило бы полностью компенсировать стоимость более длинных последовательностей уровня байта во время вывода и даже быть быстрее, чем модель прогнозирования следующей точки почти на два раза. 8-байтовая модель прогнозирования представляет собой сильную модель на основе байтов, приближаясь к производительности моделей на основе токсов, несмотря на то, что была обучена на 1,7 × меньше данных.

3.4. Поиск оптимальногоне

Чтобы лучше понять влияние количества прогнозируемых токенов, мы сделали всеобъемлющие абляции на моделях масштаба 7b, обученных 200B токенам кода. Мы пробуем n = 1, 2, 4, 6 и 8 в этом настройке. Результаты в таблице 1 показывают, что обучение с 4-защитными токенами превосходит все остальные модели последовательно по всему гумане и MBPP для прохода при 1, 10 и 100 метрик: +3,8%, +2,1% и +3,2% для MBPP и +1,2%, +3,7% и +4,1% для HumaneVal. Интересно, что для приложений/вступления n = 6 берет лидерство с +0,7%, +3,0%и +5,3%. Весьма вероятно, что оптимальный размер окна зависит от распределения входных данных. Что касается моделей уровня байтов, оптимальный размер окна более последовательна (8 байтов) по этим критериям.

3.5. Обучение для нескольких эпох

Обучение с несколькими точками по-прежнему сохраняет преимущество над предсказанием следующего ток, когда обучается на нескольких эпохах одних и тех же данных. Улучшения уменьшаются, но у нас все еще есть увеличение на +2,4% при проходе@1 на MBPP и +3,2% увеличения на проходе@100 на Humaneval, в то же время имея аналогичные характеристики для остальных. Что касается приложений/вступления, размер окна 4 уже не был оптимальным с токенами 200b тренировок.

3.6 Создание нескольких предикторов

Предварительные модели с потерей прогнозирования с несколькими ток-точками также превосходят модели следующего ток для использования в Manetunings. Мы оцениваем это путем Manetuning 7B -моделей параметров из Раздела 3.3 в наборе данных CodeContests (Li et al., 2022). Мы сравниваем модель прогнозирования с 4-х позором с базовой линейкой прогнозирования следующего ток и включаем настройку, в которой модель прогнозирования с 4 ток-мышкой снимается с его дополнительных головок прогнозирования и создана с использованием классической цели прогнозирования следующего ток. Согласно результатам на рисунке 4, оба способа создания модели прогнозирования 4-ток превзошли следующую модель прогнозирования следующего ток на Pass@K через k. Это означает, что модели лучше понимают и решают задачу и генерируют разнообразные ответы. Обратите внимание, что CodeContests является наиболее сложным эталоном кодирования, который мы оцениваем в этом исследовании. Следующее предсказание прогнозирования на вершине 4-х дарового прогнозирования предварительно представляется лучшим методом в целом, в соответствии с классической парадигмой предварительной подготовки со вспомогательными задачами, за которыми следуют характеристика, специфичная для задачи. Пожалуйста, обратитесь к Приложению F для получения подробной информации.

Figure 4: Comparison of finetuning performance on CodeContests. We finetune a 4-token prediction model on CodeContests (Li et al., 2022) (train split) using n′-token prediction as training loss with n′ = 4 or n′ = 1, and compare to a finetuning of the next-token prediction baseline model (n = n′ = 1). For evaluation, we generate 1000 samples per test problem for each temperature T ∈ {0.5, 0.6, 0.7, 0.8, 0.9}, and compute pass@k for each value of k and T. Shown is k 7→ maxT pass_at(k, T), i.e. we grant access to a temperature oracle. We observe that both ways of finetuning the 4-token prediction model outperform the next-token prediction baseline. Intriguingly, using next-token prediction finetuning on top of the 4-tokenprediction model appears to be the best method overall.

3.7 Многократный прогноз на естественном языке

Чтобы оценить многократное обучение прогнозирования по естественному языку, мы обучаем модели параметров размера 7b на 200b токенах естественного языка с 4-то-токеном, 2-то-ток-потерей и следующей потерей прогнозирования, соответственно. На рисунке 5 мы оцениваем полученные контрольные точки на 6 стандартных контрольных показателях NLP. На этих критериях модель прогнозирования токенов с двумя итогами работает наравне с базовой линейкой предсказания следующего ток.

Figure 5: Multi-token training with 7B models doesn’t improve performance on choice tasks. This figure shows the evolution of average accuracy of 6 standard NLP benchmarks. Detailed results in Appendix G for 7B models trained on 200B tokens of language data. The 2 future token model has the same performance as the baseline and the 4 future token model regresses a bit. Larger model sizes might be necessary to see improvements on these tasks.

на протяжении всего обучения. Модель прогнозирования токенов с 4 итогами страдает деградацией производительности. Подробные цифры сообщаются в Приложении G.

Тем не менее, мы не считаем, что контрольные показатели на основе множественного выбора и вероятности подходят для эффективного различения генеративных возможностей языковых моделей. Чтобы избежать потребности в человеческих аннотациях качества генерации или языковых судей, которые поставляются с собственными ловушками, как указано Koo et al. (2023)-Мы проводим оценки по сравнению с суммированием и математикой естественного языка и сравниваем предварительные модели с размерами обучающих наборов токенов 200b и 500b, а также с потери прогноза с несколькими точками, соответственно.

Для суммирования мы используем восемь тестов, где метрики Rouge (Lin, 2004) в отношении резюме грунта позволяют автоматической оценке сгенерированных текстов. Мы определяем каждую предварительную модель на наборе учебного данных каждого теста для трех эпох и выбираем контрольную точку с самой высокой оценкой Rouge-L F1 в наборе данных проверки. На рисунке 6 показано, что модели с несколькими токными прогнозирования как с n = 2, так и N = 4 улучшаются по сравнению с базовой линией следующего ток в Rouge-L F1-баллах для обоих размеров наборов обучения, а разрыв в производительности сокращается с большим размером набора данных. Все метрики можно найти в Приложении H.

Для математики естественного языка мы оцениваем предварительную модели в режиме 8 выстрелов на эталон GSM8K (Cobbe et al., 2021) и измеряем точность окончательного ответа, полученного после цепочки мыслей, вызванной примерами Marting Shot. Мы оцениваем метрики Pass@K, чтобы количественно оценить разнообразие и правильность ответов, как в оценках кода

Figure 6: Performance on abstractive text summarization. Average ROUGE-L (longest common subsequence overlap) F1 score for 7B models trained on 200B and 500Btokens of natural language on eight summarization benchmarks. We finetune the respective models on each task’s training data separately for three epochs and select the checkpoints with highest ROUGE-L F1 validation score. Both n = 2 and n = 4 multi-token prediction models have an advantage over next-token prediction models. Individual scores per dataset and more details can be found in Appendix H.

и использовать температуру отбора проб от 0,2 до 1,4. Результаты изображены на рисунке S13 в Приложении I. Для 200B тренировочных токенов модель n = 2 явно превосходит базовую линию следующего ток-прогноза, в то время как шаблон меняется после 500B токенов, а n = 4 хуже во всем.

Авторы:

(1) Фабиан Глокл, ярмарка в Meta, Cermics Ecole des Ponts Paristech и равный вклад;

(2) Badr Youbi Idrissi, Fair at Meta, Lisn Université Paris-Saclayand и равный вклад;

(3) Baptiste Rozière, ярмарка в Meta;

(4) Дэвид Лопес-Паз, ярмарка в Meta и последний автор;

(5) Габриэль Синнев, ярмарка в Meta и последний автор.


Эта статья естьДоступно на ArxivПод CC по лицензии 4.0.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE