Мульти-байтовый прогноз: разблокировка глобальных закономерностей в LLMS

Мульти-байтовый прогноз: разблокировка глобальных закономерностей в LLMS

7 июня 2025 г.

Аннотация и 1. Введение

2. Метод

3. Эксперименты по реальным данным

3.1. Шкала преимуществ с размером модели и 3,2. Более быстрый вывод

3.3. Изучение глобальных моделей с помощью мульти-байтового прогноза и 3.4. Поиск оптимальногоне

3.5. Обучение для нескольких эпох и 3.6. Создание нескольких предикторов

3.7 Многократный прогноз на естественном языке

4. Абляции на синтетических данных и 4.1. Индукционная способность

4.2. Алгоритмические рассуждения

5. Почему это работает? Некоторые спекуляции и 5.1. Lookahead Укрепляет очки выбора

5.2. Информация теоретичный аргумент

6. Связанная работа

7. Заключение, Заявление о воздействии, воздействие на окружающую среду, подтверждения и ссылки

A. Дополнительные результаты по самопрокативному декодированию

Б. Альтернативные архитектуры

C. Скорость тренировок

D. МАГАЗИН

E. Дополнительные результаты по поведению масштабирования модели

F. Подробности о CodeContests Manetuning

G. Дополнительные результаты по сравнению с естественным языком

H. Дополнительные результаты по абстрактному текстовому суммированию

I. Дополнительные результаты по математическим рассуждениям на естественном языке

J. Дополнительные результаты по индукционному обучению

K. Дополнительные результаты по алгоритмическим рассуждениям

L. Дополнительные интуиции по многоцелевым прогнозам

М. Обучение гиперпараметры

3.3. Обучение глобальным моделям с помощью много-байтового прогнозирования

Чтобы показать, что задача прогнозирования следующего ток привязывает локальные шаблоны, мы обратились к экстремальному случаю токенизации уровня байта, обучая трансформатор уровня параметров 7B на байтах 314B, что эквивалентно около 116B токенс. 8-байтовая модель прогнозирования достигает поразительных улучшений по сравнению с предсказанием следующего, решая на 67% больше проблем при проходе MBPP при проходе@1 и 20% больше проблем при проходе Гуманевала@1.

Поэтому многообещающий прогноз является очень многообещающим проспектом, чтобы открыть эффективное обучение моделей уровня байта. Самоспективное декодирование может достичь ускорения в 6 раз для 8-байтовой модели прогнозирования, что позволило бы полностью компенсировать стоимость более длинных последовательностей уровня байта во время вывода и даже быть быстрее, чем модель прогнозирования следующей точки почти на два раза. 8-байтовая модель прогнозирования представляет собой сильную модель на основе байтов, приближаясь к производительности моделей на основе токсов, несмотря на то, что была обучена на 1,7 × меньше данных.

3.4. Поиск оптимального n

Чтобы лучше понять влияние количества прогнозируемых токенов, мы сделали всеобъемлющие абляции на моделях масштаба 7b, обученных 200B токенам кода. Мы пробуем n = 1, 2, 4, 6 и 8 в этом настройке. Результаты в таблице 1 показывают, что обучение с 4-защитными токенами превосходит все остальные модели последовательно по всему гумане и MBPP для прохода при 1, 10 и 100 метрик: +3,8%, +2,1% и +3,2% для MBPP и +1,2%, +3,7% и +4,1% для HumaneVal. Интересно, что для приложений/вступления n = 6 берет лидерство с +0,7%, +3,0%и +5,3%. Весьма вероятно, что оптимальный размер окна зависит от распределения входных данных. Что касается моделей уровня байтов, оптимальный размер окна более последовательна (8 байтов) по этим критериям.

Эта статья естьДоступно на ArxivПод CC по лицензии 4.0.

Авторы:

(1) Фабиан Глокл, ярмарка в Meta, Cermics Ecole des Ponts Paristech и внес свой вклад;

(2) Badr Youbi Idrissifair в Meta, Lisn Université Paris-Saclay и внес свой вклад;

(3) Baptiste Rozière, ярмарка в Meta;

(4) Дэвид Лопес-Паз, ярмарка в Мете и его последний автор;

(5) Габриэль Синнев, ярмарка в Meta и последний автор.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE