Предсказание с несколькими точками: управление качественными изменениями в возможностях LLM

Предсказание с несколькими точками: управление качественными изменениями в возможностях LLM

6 июня 2025 г.

Аннотация и 1. Введение

2. Метод

3. Эксперименты по реальным данным

3.1. Шкала преимуществ с размером модели и 3,2. Более быстрый вывод

3.3. Изучение глобальных моделей с помощью мульти-байтового прогноза и 3.4. Поиск оптимальногоне

3.5. Обучение для нескольких эпох и 3.6. Создание нескольких предикторов

3.7 Многократный прогноз на естественном языке

4. Абляции на синтетических данных и 4.1. Индукционная способность

4.2. Алгоритмические рассуждения

5. Почему это работает? Некоторые спекуляции и 5.1. Lookahead Укрепляет очки выбора

5.2. Информация теоретичный аргумент

6. Связанная работа

7. Заключение, Заявление о воздействии, воздействие на окружающую среду, подтверждения и ссылки

A. Дополнительные результаты по самопрокативному декодированию

Б. Альтернативные архитектуры

C. Скорость тренировок

D. МАГАЗИН

E. Дополнительные результаты по поведению масштабирования модели

F. Подробности о CodeContests Manetuning

G. Дополнительные результаты по сравнению с естественным языком

H. Дополнительные результаты по абстрактному текстовому суммированию

I. Дополнительные результаты по математическим рассуждениям на естественном языке

J. Дополнительные результаты по индукционному обучению

K. Дополнительные результаты по алгоритмическим рассуждениям

L. Дополнительные интуиции по многоцелевым прогнозам

М. Обучение гиперпараметры

4. Абляции на синтетических данных

Что способствует улучшениям в производительности нисходящих моделей многоцветного прогнозирования во всех рассматриваемых мы заданиях? Проведя эксперименты по игрушкам на контролируемых наборах данных обучающих данных и задачах оценки, мы демонстрируем, что многократный прогноз приводит к качественным изменениям в возможностях модели и поведении обобщения. В частности, раздел 4.1 показывает, что для небольших размеров модели индукционная способность - как обсуждается Olsson et al. (2022)-либо формируются только при использовании многоцветного прогнозирования в качестве потери тренировок, или он значительно улучшается. Более того, раздел 4.2 показывает, что многоцветный прогноз улучшает обобщение арифметической задачи, даже больше, чем размер утроения модели.

4.1. Индукционная способность

Индукция описывает простую схему рассуждений, которая завершает частичные закономерности благодаря их последнему продолжению (Olsson et al., 2022). Другими словами, если предложение содержит «AB», а затем упоминает «A», индукция - это прогноз, что продолжение «B». Мы разрабатываем установку для измерения индукции

Figure 7: Induction capability of n-token prediction models. Shown is accuracy on the second token of two token names that have already been mentioned previously. Shown are numbers for models trained with a next-token and a 2-token prediction loss, respectively, with two independent runs each. The lines denote per-loss averages. For small model sizes, next-token prediction models learn practically no or significantly worse induction capability than 2-token prediction models, with their disadvantage disappearing at the size of 100M nonembedding parameters.

Возможности контролируемым образом. Обучение небольших моделей размеров от 1 млн до 1B Параметры не внедренных параметров на наборе данных о детских историях, мы измеряем возможность индукции с помощью адаптированного набора тестов: В 100 этажах из исходного разделения тестов мы заменяем имена символов случайно сгенерированными именами, которые состоят из двух токенов с токенизатором, который мы используем. Прогнозирование первого из этих двух токенов связано с семантикой предыдущего текста, в то же время предсказывая второй токен возникновения каждого имени после того, как оно упоминалось, по крайней мере, один раз можно рассматривать как задачу для чистой индукции. В наших экспериментах мы тренируемся до 90 эпох и выполняем раннюю остановку в отношении испытательной метрики (то есть мы разрешаем эпоху Oracle). На рисунке 7 представлена ​​индукция, измеренная точностью на вторых токенах имен по отношению к размеру модели для двух прогонов с разными семенами.

Мы обнаруживаем, что потеря прогнозирования с двумя точками приводит к значительно улучшенной формированию индукционной способности для моделей параметров неэмблинга размером 30 м и ниже, с их преимуществом, исчезающим для размеров параметров не внесения 100 м и выше. [1] Мы интерпретируем этот вывод следующим образом: потери с множественными прогнозами помогают моделям изучения передачи информации по положениям последовательностей, что поддается формированию индукционных голов и других встроенных механизмов обучения. Однако, как только сформировались индукционные возможности, эти изученные особенности преобразуют индукцию

Figure 8: Accuracy on a polynomial arithmetic task with varying number of operations per expression. Training with multi-token prediction losses increases accuracy acrosstask difficulties. In particular, it also significantly improves out-of-domain generalization performance, albeit at a low absolute level. Tripling the model size, on the other hand, has a considerably smaller effect than replacing next-token prediction with multi-token prediction loss (Figure S16). Shown are two independent runs per configuration with 100M parameter models.

в задачу, которая может быть решена локально в текущем токене и изучена только с следующим предсказанием. С этого момента, многократный прогноз на самом деле больно в этом ограниченном эталоне, но мы предполагаем, что существуют более высокие формы рассуждений в контексте, в которые он дополнительно способствует, о чем свидетельствуют результаты в разделе 3.1. На рисунке S14 мы предоставляем доказательства этого объяснения: замена набора данных о детских историях на более высокий качественный сочетаний 9: 1 набор данных книг с детскими историями, мы обеспечиваем формирование индукционных возможностей в начале обучения только с помощью набора данных. В результате, за исключением двух наименьших размеров модели, преимущество многоцелового прогнозирования в задаче исчезает: обучение функциям индукционных функций преобразовало задачу в чистую задачу предсказания следующего ток.

Эта статья естьДоступно на ArxivПод CC по лицензии 4.0.


[1] Обратите внимание, что идеальная оценка не доступна в этом эталонном эталоне, поскольку некоторые токены в именах в наборе данных оценки никогда не появляются в учебных данных, а в нашей архитектуре параметры встраивания и неэмбенции не связаны.

Авторы:

(1) Фабиан Глокл, ярмарка в Meta, Cermics Ecole des Ponts Paristech и внес свой вклад;

(2) Badr Youbi Idrissifair в Meta, Lisn Université Paris-Saclay и внес свой вклад;

(3) Baptiste Rozière, ярмарка в Meta;

(4) Дэвид Лопес-Паз, ярмарка в Мете и его последний автор;

(5) Габриэль Синнев, ярмарка в Meta и последний автор.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE