Информационная теоретичная аргумент для многоцветных преимуществ прогнозирования

Информационная теоретичная аргумент для многоцветных преимуществ прогнозирования

6 июня 2025 г.

Аннотация и 1. Введение

2. Метод

3. Эксперименты по реальным данным

3.1. Шкала преимуществ с размером модели и 3,2. Более быстрый вывод

3.3. Изучение глобальных моделей с помощью мульти-байтового прогноза и 3.4. Поиск оптимальногоне

3.5. Обучение для нескольких эпох и 3.6. Создание нескольких предикторов

3.7 Многократный прогноз на естественном языке

4. Абляции на синтетических данных и 4.1. Индукционная способность

4.2. Алгоритмические рассуждения

5. Почему это работает? Некоторые спекуляции и 5.1. Lookahead Укрепляет очки выбора

5.2. Информация теоретичный аргумент

6. Связанная работа

7. Заключение, Заявление о воздействии, воздействие на окружающую среду, подтверждения и ссылки

A. Дополнительные результаты по самопрокативному декодированию

Б. Альтернативные архитектуры

C. Скорость тренировок

D. МАГАЗИН

E. Дополнительные результаты по поведению масштабирования модели

F. Подробности о CodeContests Manetuning

G. Дополнительные результаты по сравнению с естественным языком

H. Дополнительные результаты по абстрактному текстовому суммированию

I. Дополнительные результаты по математическим рассуждениям на естественном языке

J. Дополнительные результаты по индукционному обучению

K. Дополнительные результаты по алгоритмическим рассуждениям

L. Дополнительные интуиции по многоцелевым прогнозам

М. Обучение гиперпараметры

5.2. Информация теоретичный аргумент

Языковые модели, как правило, обучаются преподавателям, где модель получает основную правду для каждого токена будущего во время обучения. Тем не менее, во время тестирования генерация времени не эксплуатируется и авторегрессирует, в результате чего накапливаются ошибки. Мы утверждаем, что преподавание поощряет модели, чтобы сосредоточиться на хорошо предсказании в очень краткосрочной перспективе, за потенциальные затраты на игнорирование долгосрочных зависимостей в общей структуре генерируемой последовательности.

Чтобы проиллюстрировать влияние многоцелевого прогнозирования, рассмотрите следующий теоретичный аргумент. Здесь X обозначает следующее будущее токен, а Y второе-токен Future Future. Производство обоих этих токенов обусловлено некоторым наблюдаемым входным контекстом C, который мы пропускаем из наших уравнений для простоты. При размещении перед токеном x, ванильный прогноз следующего тока касается количества h (x), в то время как многократное прогноз с n = 2 нацелен на H (x) + H (y). Мы разлагаем эти два количества как:

H (x) = h (x | y) + i (x; y),

H (x) + h (y) = h (x | y) + 2i (x; y) + h (y | x).

Отбросив термин H (y | x), который появляется снова при прогнозировании в следующем положении, мы наблюдаем, что 2-то-ток-прогноз увеличивает важность i (x; y) в течение 2. Таким образом, многократные предикторы более точны при прогнозировании токенов x, которые имеют отношение к остальному тексту. В Приложении L.2 мы даем относительную версию вышеуказанных уравнений, которые показывают повышенный вес относительной взаимной информации при разложении потерь 2-token потерь прогнозирования.

Эта статья естьДоступно на ArxivПод CC по лицензии 4.0.

Авторы:

(1) Фабиан Глокл, ярмарка в Meta, Cermics Ecole des Ponts Paristech и внес свой вклад;

(2) Badr Youbi Idrissifair в Meta, Lisn Université Paris-Saclay и внес свой вклад;

(3) Baptiste Rozière, ярмарка в Meta;

(4) Дэвид Лопес-Паз, ярмарка в Мете и его последний автор;

(5) Габриэль Синнев, ярмарка в Meta и последний автор.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE