Дифференцирование многоцветного прогнозирования от предыдущих методов обучения LLM

Дифференцирование многоцветного прогнозирования от предыдущих методов обучения LLM

6 июня 2025 г.

Аннотация и 1. Введение

2. Метод

3. Эксперименты по реальным данным

3.1. Шкала преимуществ с размером модели и 3,2. Более быстрый вывод

3.3. Изучение глобальных моделей с помощью мульти-байтового прогноза и 3.4. Поиск оптимальногоне

3.5. Обучение для нескольких эпох и 3.6. Создание нескольких предикторов

3.7 Многократный прогноз на естественном языке

4. Абляции на синтетических данных и 4.1. Индукционная способность

4.2. Алгоритмические рассуждения

5. Почему это работает? Некоторые спекуляции и 5.1. Lookahead Укрепляет очки выбора

5.2. Информация теоретичный аргумент

6. Связанная работа

7. Заключение, Заявление о воздействии, воздействие на окружающую среду, подтверждения и ссылки

A. Дополнительные результаты по самопрокативному декодированию

Б. Альтернативные архитектуры

C. Скорость тренировок

D. МАГАЗИН

E. Дополнительные результаты по поведению масштабирования модели

F. Подробности о CodeContests Manetuning

G. Дополнительные результаты по сравнению с естественным языком

H. Дополнительные результаты по абстрактному текстовому суммированию

I. Дополнительные результаты по математическим рассуждениям на естественном языке

J. Дополнительные результаты по индукционному обучению

K. Дополнительные результаты по алгоритмическим рассуждениям

L. Дополнительные интуиции по многоцелевым прогнозам

М. Обучение гиперпараметры

Языковое моделирование потерьDong et al. (2019) и Tay et al. (2022) Тренируются на смеси разоблачивания задач с различными масками внимания (полное, причинное и префикс), чтобы преодолеть разрыв в производительности рядом с предварительной подготовкой токенов с генеративными задачами. Tay et al. (2022) использует цель коррупции SPAN, которая заменяет пролеты токенов специальными токенами для кодера, а затем декодер предсказывает содержимое этих пролетов. В отличие от Unilm, это обеспечивает полную причинно -следственную подготовку с принуждением учителя. Точно так же Yang et al. (2019) обучаются на перестроенных последовательностях, сохраняя при сохранении исходных позиционных встраиваний, эффективно обучая модель для прогнозирования различных частей последовательности, учитывая смесь прошлой и будущей информации. Это перестроенное языковое моделирование является наиболее близкой задачей для нашей, поскольку оно позволяет прогнозировать, за исключением следующего токена. Однако все эти задачи по моделированию языка обучаются на небольшом процентном содержании входного текста: в среднем только 15% токенов отступают. Для Dong et al. (2019), где маскировка выполняется в стиле Берта, трудно маскировать более 15%, поскольку она разрушает слишком много информации. Для Tay et al. (2022), технически возможно иметь большую долю, но на практике используемые настройки имеют от 15% до 25% токенов в масках. (Yang et al., 2019) также позволяет тренироваться на всей последовательности, поскольку она только перестановлена, и никакая информация не теряется. Тем не менее, на практике, поскольку полностью случайная перестановка очень трудно реконструировать, только 15% прогнозируются по причинам стабильности обучения.

Предсказание мульти-ток в языковом моделированииQi et al. (2020) утверждают, что многократный прогноз поощряет планирование, улучшает представления и предотвращает переосмысление местных моделей, которые могут возникнуть в результате обучения, основанного на учителе. Тем не менее, их технический подход повторяет остаточный поток n-glod, в то время как наш позволяет сравнивать вычислимые сравнения и заставляет остаточные представления более непосредственно участвовать в условиях вспомогательных потерь. Stern et al. (2018) и Cai et al. (2024) предлагают модельные создания с множественным прогнозом для более быстрого вывода, но не изучают влияние такой потери во время предварительной подготовки. Pal et al. (2023) Используйте методы зондирования, чтобы показать, что модели прогнозирования следующего ток-тона могут в определенной степени прогнозировать дополнительные последовательные токены, но меньше, чем наши модели, которые специально обучены для этой задачи. Цзянью Чжан (2024) наблюдает за улучшениями в задачах по моделированию языка с многоуровневой бинарной классификацией по поводу возникновения словарных слов в будущем как задачи вспомогательного обучения.

Самопрокулятивное декодированиеStern et al. (2018), насколько нам известно, являются первыми, кто предложит спекулятивную схему декодирования для более быстрого вывода. Наша архитектура заменяет их линейные головки прогнозирования на слои трансформатора, но в остальном похожа. Реорганизуя порядок прямого/назад, мы можем использовать все термины потерь вместо стохастически выбора одной головы для вычисления потерь. Cai et al. (2024) представляют более сложную схему самопрокативной декодирования, которая использует прогнозы Top-K каждой головы вместо лучшей. Его можно использовать с моделями предсказания с несколькими токками, которые мы тренируем.

Многоцелевое предсказаниеМногозадачное обучение-это парадигма обучения нейронных сетей совместно с несколькими задачами по повышению эффективности, представляющих интересы (Caruana, 1997). Обучение с такими вспомогательными задачами позволяет моделям использовать зависимости между целевыми переменными и может быть даже предпочтительнее в случае независимых целей (Waegeman et al., 2019). Хотя более конкретно адаптированные архитектуры для многоцелевого предсказания могут быть способны (Spyromitrosxioufis et al., 2016; Read et al., 2021), современные подходы глубокого обучения обычно полагаются на крупные общие стволы модели с отдельными головками предсказания для соответствующих задач (Caruana, 1997; Silver et al., 2016; Lakeld et al., 2022). Было показано, что многоцелевое предсказание является успешной стратегией в различных областях, например, Для прогнозирования временных рядов обучения с более отдаленными временными шагами в будущем в качестве вспомогательных целей (Vapnik and Vashist, 2009) или для обучения на видео с несколькими будущими кадрами (Mathieu et al., 2016; Srivastava et al., 2016) или представления будущих кадров (Vondrick et al., 2016) в качестве вспомогательных целей.

Эта статья естьДоступно на ArxivПод CC по лицензии 4.0.

Авторы:

(1) Фабиан Глокл, ярмарка в Meta, Cermics Ecole des Ponts Paristech и внес свой вклад;

(2) Badr Youbi Idrissifair в Meta, Lisn Université Paris-Saclay и внес свой вклад;

(3) Baptiste Rozière, ярмарка в Meta;

(4) Дэвид Лопес-Паз, ярмарка в Мете и его последний автор;

(5) Габриэль Синнев, ярмарка в Meta и последний автор.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE