deep-learning tech-stories llm-training multi-token-prediction transformer-models llm-optimization cross-entropy-loss language-modeling ai-method

Оптимизация LLM Learning: объяснена потери кросс-энтропии с несколькими точками

18 июля 2025 г.

Таблица ссылок

Аннотация и 1. Введение

2. Метод

3. Эксперименты по реальным данным

4. Абляции на синтетических данных

5. Почему это работает? Некоторые предположения

6. Связанная работа

7. Заключение, Заявление о воздействии, воздействие на окружающую среду, подтверждения и ссылки

A. Дополнительные результаты по самопрокативному декодированию

Б. Альтернативные архитектуры

C. Скорость тренировок

D. МАГАЗИН

E. Дополнительные результаты по поведению масштабирования модели

F. Подробности о CodeContests Manetuning

G. Дополнительные результаты по сравнению с естественным языком

H. Дополнительные результаты по абстрактному текстовому суммированию

I. Дополнительные результаты по математическим рассуждениям на естественном языке

J. Дополнительные результаты по индукционному обучению

K. Дополнительные результаты по алгоритмическим рассуждениям

L. Дополнительные интуиции по многоцелевым прогнозам

М. Обучение гиперпараметры

2. Метод

Стандартное языковое моделирование узнает о большом текстовом корпусе X1 ,. Полем Полем XT, реализуя задачу предсказания следующего ток. Формально, цель обучения состоит в том, чтобы минимизировать потерю поперечной энтропии

В этой работе мы обобщаем вышеизложенное, выполняя задачу предсказания с несколькими ток-дарами, где на каждой позиции учебного корпуса модели инструментаруется предсказать n будущих токенов одновременно. Это переводится на потери перекрестной энтропии

Figure 2: Order of the forward/backward in an n-token prediction model with n = 2 heads. By performing the forward/backward on the heads in sequential order, we avoidmaterializing all unembedding layer gradients in memory simultaneously and reduce peak GPU memory usage.

Авторы:

(1) Фабиан Глокл, ярмарка в Meta, Cermics Ecole des Ponts Paristech и равный вклад;

(2) Badr Youbi Idrissi, Fair at Meta, Lisn Université Paris-Saclayand и равный вклад;

(3) Baptiste Rozière, ярмарка в Meta;

(4) Дэвид Лопес-Паз, ярмарка в Meta и последний автор;

(5) Габриэль Синнев, ярмарка в Meta и последний автор.

Эта статья естьДоступно на ArxivПод CC по лицензии 4.0.

Оригинал

Оптимизация LLM Learning: объяснена потери кросс-энтропии с несколькими точками

Таблица ссылок

2. Метод

Recent Post

Масштабирование видео в реальном времени на AWS: как мы поддерживаем задержку WEBRTC ниже 150 мс с AutoScaling Kubernetes

Эффективные данные о том, как подготовить и запросы с помощью PineCone и GPT-4O

Тепловая карта и точность результатов моделей классификации медицинских изображений

Как модели ИИ переосмысливают обнаружение опухоли на уровне ткани

Почему обнаружение мутаций TP53 на цифровых слайдах остается проблемой

Categories