Изучение альтернативных архитектур для прогнозирования Multi-Token LLM

Изучение альтернативных архитектур для прогнозирования Multi-Token LLM

21 июля 2025 г.

Аннотация и 1. Введение

2. Метод

3. Эксперименты по реальным данным

4. Абляции на синтетических данных

5. Почему это работает? Некоторые предположения

6. Связанная работа

7. Заключение, Заявление о воздействии, воздействие на окружающую среду, подтверждения и ссылки

A. Дополнительные результаты по самопрокативному декодированию

Б. Альтернативные архитектуры

C. Скорость тренировок

D. МАГАЗИН

E. Дополнительные результаты по поведению масштабирования модели

F. Подробности о CodeContests Manetuning

G. Дополнительные результаты по сравнению с естественным языком

H. Дополнительные результаты по абстрактному текстовому суммированию

I. Дополнительные результаты по математическим рассуждениям на естественном языке

J. Дополнительные результаты по индукционному обучению

K. Дополнительные результаты по алгоритмическим рассуждениям

L. Дополнительные интуиции по многоцелевым прогнозам

М. Обучение гиперпараметры

Б. Альтернативные архитектуры

Table S4: Alternative architectures improve on baseline but not as consistently. Alternative architectures for multi-token prediction are worth exploring to improve efficiency. Here we tried Anticausal, causal and linear and showed no significant improvement with respect to Parallel architecture.

Архитектура, описанная в разделе 2, является не единственным разумным вариантом, но оказалась технически жизнеспособным и хорошо эффективным в наших экспериментах. Мы описываем и сравниваем альтернативные архитектуры в этом разделе.

Реплицированы безэмбедингаРепликация матрицы без вменения n-это простой метод реализации архитектур предсказания с несколькими точками. Тем не менее, это требуют матриц с формами (D, NV) в обозначениях раздела 2, что является непомерным для крупномасштабных тренингов.

Линейные головыПомимо использования одного слоя трансформатора для голов Hя, другие архитектуры можно. Мы экспериментировали с одним линейным слоем без какой -либо нелинейности в качестве голов, что составляет линейное исследование остаточного представления модели Z. Архитектуры с более чем одним слоем на голову также возможны, но мы не продвигали это направление дальше.

Figure S11: Order of the forward/backward in a causal n-token prediction model with n = 2 heads. Like in the forward/backward depicted for parallel prediction heads in Figure 2, we avoid materializing all unembedding layer gradients in memory simultaneously and reduce peak GPU memory usage significantly. The iteration over the heads starts with the one furthest to the trunk. At each head, a gradient from the succeeding prediction heads and from the head’s own loss are accumulated for both the head’s output and its weights.

Авторы:

(1) Фабиан Глокл, ярмарка в Meta, Cermics Ecole des Ponts Paristech и равный вклад;

(2) Badr Youbi Idrissi, Fair at Meta, Lisn Université Paris-Saclayand и равный вклад;

(3) Baptiste Rozière, ярмарка в Meta;

(4) Дэвид Лопес-Паз, ярмарка в Meta и последний автор;

(5) Габриэль Синнев, ярмарка в Meta и последний автор.


Эта статья естьДоступно на ArxivПод CC по лицензии 4.0.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE