tech-stories multi-token-prediction llm-architecture deep-learning-architecture neural-network-design computational-efficiency llm-implementation architecture-comparison anticausal-networks

Альтернативные архитектуры для многоцелевого прогнозирования в LLMS

6 июня 2025 г.

Таблица ссылок

Аннотация и 1. Введение

2. Метод

3. Эксперименты по реальным данным

3.1. Шкала преимуществ с размером модели и 3,2. Более быстрый вывод

3.3. Изучение глобальных моделей с помощью мульти-байтового прогноза и 3.4. Поиск оптимальногоне

3.5. Обучение для нескольких эпох и 3.6. Создание нескольких предикторов

3.7 Многократный прогноз на естественном языке

4. Абляции на синтетических данных и 4.1. Индукционная способность

4.2. Алгоритмические рассуждения

5. Почему это работает? Некоторые спекуляции и 5.1. Lookahead Укрепляет очки выбора

5.2. Информация теоретичный аргумент

6. Связанная работа

7. Заключение, Заявление о воздействии, воздействие на окружающую среду, подтверждения и ссылки

A. Дополнительные результаты по самопрокативному декодированию

Б. Альтернативные архитектуры

C. Скорость тренировок

D. МАГАЗИН

E. Дополнительные результаты по поведению масштабирования модели

F. Подробности о CodeContests Manetuning

G. Дополнительные результаты по сравнению с естественным языком

H. Дополнительные результаты по абстрактному текстовому суммированию

I. Дополнительные результаты по математическим рассуждениям на естественном языке

J. Дополнительные результаты по индукционному обучению

K. Дополнительные результаты по алгоритмическим рассуждениям

L. Дополнительные интуиции по многоцелевым прогнозам

М. Обучение гиперпараметры

Б. Альтернативные архитектуры

Table S4: Alternative architectures improve on baseline but not as consistently. Alternative architectures for multi-token prediction are worth exploring to improve efficiency. Here we tried Anticausal, causal and linear and showed no significant improvement with respect to Parallel architecture.

Архитектура, описанная в разделе 2, является не единственным разумным вариантом, но оказалась технически жизнеспособным и хорошо эффективным в наших экспериментах. Мы описываем и сравниваем альтернативные архитектуры в этом разделе.

Реплицированы безэмбедингаРепликация матрицы без вменения n-это простой метод реализации архитектур предсказания с несколькими точками. Тем не менее, это требуют матриц с формами (D, NV) в обозначениях раздела 2, что является непомерным для крупномасштабных тренингов.

В другомантикаузаВариант, сеть начинается с прогнозирования наиболее отдаленных токенов, прежде чем постепенно совершенствовать следующее токен:

Эти архитектуры также допускают последовательный прямой/обратный порядок в качестве параллельной архитектуры из Раздела 2. Это описано на рисунке S11.

Эта статья естьДоступно на ArxivПод CC по лицензии 4.0.

Авторы:

(1) Фабиан Глокл, ярмарка в Meta, Cermics Ecole des Ponts Paristech и внес свой вклад;

(2) Badr Youbi Idrissifair в Meta, Lisn Université Paris-Saclay и внес свой вклад;

(3) Baptiste Rozière, ярмарка в Meta;

(4) Дэвид Лопес-Паз, ярмарка в Мете и его последний автор;

(5) Габриэль Синнев, ярмарка в Meta и последний автор.

Оригинал

Альтернативные архитектуры для многоцелевого прогнозирования в LLMS

Таблица ссылок

Б. Альтернативные архитектуры

Recent Post

Bitpanda запускает Defi Wallet для Power Europe в будущее Onchain

Как Toyota Blockchain Lab хочет сделать автомобили готовыми к финансированию: Внутри предложения Toyota's Mon предложение

Получение звонков клиентов по бюджету в размере 0 долларов США: уроки от стартапа репетиторства

За кулисами эксперимента парного программирования

Простое руководство по измерению времени и труда в программировании

Categories