Эмпирическая проверка многоцелостного прогнозирования для LLMS

Эмпирическая проверка многоцелостного прогнозирования для LLMS

7 июня 2025 г.

Аннотация и 1. Введение

2. Метод

3. Эксперименты по реальным данным

3.1. Шкала преимуществ с размером модели и 3,2. Более быстрый вывод

3.3. Изучение глобальных моделей с помощью мульти-байтового прогноза и 3.4. Поиск оптимальногоне

3.5. Обучение для нескольких эпох и 3.6. Создание нескольких предикторов

3.7 Многократный прогноз на естественном языке

4. Абляции на синтетических данных и 4.1. Индукционная способность

4.2. Алгоритмические рассуждения

5. Почему это работает? Некоторые спекуляции и 5.1. Lookahead Укрепляет очки выбора

5.2. Информация теоретичный аргумент

6. Связанная работа

7. Заключение, Заявление о воздействии, воздействие на окружающую среду, подтверждения и ссылки

A. Дополнительные результаты по самопрокативному декодированию

Б. Альтернативные архитектуры

C. Скорость тренировок

D. МАГАЗИН

E. Дополнительные результаты по поведению масштабирования модели

F. Подробности о CodeContests Manetuning

G. Дополнительные результаты по сравнению с естественным языком

H. Дополнительные результаты по абстрактному текстовому суммированию

I. Дополнительные результаты по математическим рассуждениям на естественном языке

J. Дополнительные результаты по индукционному обучению

K. Дополнительные результаты по алгоритмическим рассуждениям

L. Дополнительные интуиции по многоцелевым прогнозам

М. Обучение гиперпараметры

3. Эксперименты по реальным данным

Мы демонстрируем эффективность потерь предсказания с несколькими точками на семь крупномасштабных экспериментов. В разделе 3.1 показано, как многократный прогноз становится все более полезным при увеличении размера модели. Раздел 3.2 показывает, как дополнительные головки прогнозирования могут ускорить вывод в 3 × с использованием спекулятивного декодирования. Раздел 3.3 демонстрирует, как мульти-ток-прогноз способствует более долгосрочным моделям обучения, что является наиболее очевидным в крайнем случае токенизации уровня байта. Раздел 3.4 показывает, что 4-то-ток-предиктор приводит к сильным достижениям с токенизатором размера 32K. Раздел 3.5 иллюстрирует, что преимущества многоцелевого прогноза остаются для обучения с несколькими эпохами. Раздел 3.6 демонстрирует богатые представления, продвигаемые в результате предварительной подготовки с несколькими потери прогнозирования путем создания набора данных CodeContests (Li et al., 2022). Раздел 3.7 показывает, что преимущества многоцелевого прогнозирования переносят модели естественного языка, улучшая генеративные оценки, такие как суммирование, при этом не регрессируют значительно на стандартные контрольные показатели на основе вопросов с множественным выбором и негативных логарифмических прав.

Чтобы обеспечить справедливое сравнение между предикторами следующих ток и предикторов N-Token, эксперименты, которые следуют, всегда сравнивают модели с одинаковым количеством параметров. То есть, когда мы добавляем n - 1 слои в будущие головки прогнозирования, мы удаляем n - 1 слои из общей модели ствола. Пожалуйста, обратитесь к таблице S14 для модельных архитектур и таблице S13 для обзора гиперпараметров, которые мы используем в наших экспериментах.

Эта статья естьДоступно на ArxivПод CC по лицензии 4.0.

Авторы:

(1) Фабиан Глокл, ярмарка в Meta, Cermics Ecole des Ponts Paristech и внес свой вклад;

(2) Badr Youbi Idrissifair в Meta, Lisn Université Paris-Saclay и внес свой вклад;

(3) Baptiste Rozière, ярмарка в Meta;

(4) Дэвид Лопес-Паз, ярмарка в Мете и его последний автор;

(5) Габриэль Синнев, ярмарка в Meta и последний автор.


Оригинал
PREVIOUS ARTICLE