Новая энергетическая функция без регуляризации для анализа трансформатора

Новая энергетическая функция без регуляризации для анализа трансформатора

23 июня 2025 г.

Аннотация и 1 введение

2 Связанная работа

3 модели и 3.1 ассоциативные воспоминания

3.2 трансформаторные блоки

4 Новая энергетическая функция

4.1 Слоистая структура

5 Потеря по перекрестной энтропии

6 Эмпирические результаты и 6.1 Эмпирическая оценка радиуса

6.2 Обучение GPT-2

6.3 Тренировка ванильных трансформаторов

7 Заключение и подтверждение

Приложение A. отложенные таблицы

Приложение B. Некоторые свойства энергетических функций

Приложение C. отложенные доказательства из раздела 5

Приложение D. Трансформатор Подробности: Использование GPT-2 в качестве примера

Ссылки

7 Заключение

Мы моделируем сети, основанные на трансформаторах с ассоциативной памятью и изучаем потерю поперечной энтропии в отношении модели и размеров данных. Предлагая новую энергетическую функцию в уравнении. 5, что не полагается на дополнительные термины регуляризации, как это распространено в современных непрерывных сетях хопфилда, мы демонстрируем, что предлагаемая энергетическая функция соответствует поиску ближайшего соседа по разным моделям, запоминающимся во время обучения. Затем мы строим глобальную энергетическую функцию для слоистой структуры моделей трансформаторов, используя метод мажоризации-минимизации.

На практике мы наблюдали, что большинство моделей трансформаторов, как правило, достигают потери кросс-энтропии приблизительно 2,2. Однако оптимальный баланс между моделью и размерами данных часто определяется коллективной экспертизой практикующих. Кроме того, производительность этих моделей может быть скомпрометирована как ранней, так и задержкой остановки.

Мы считаем, что текущая статья представляет собой важный шаг к пониманию поведения сходимости и обобщения крупных трансформаторных моделей. Он дает представление о теоретически оптимальной потерь по перекрестной энтропии, которая может проинформировать как бюджетное планирование, так и стратегии прекращения модели.

Благодарности

Автор благодарит доктора Йонгки Сюй за стимулирование дискуссий и практическую помощь в экспериментах.

Авторы:

(1) Xueyan Niu, Theory Laboratory, Central Research Institute, 2012 Laboratories, Huawei Technologies Co., Ltd.;

(2) Бо Бай Байбо (8@huawei.com);

(3) Lei Deng (deng.lei2@huawei.com);

(4) Вэй Хан (harvey.hanwei@huawei.com).


Эта статья естьДоступно на ArxivПод CC BY-NC-ND 4.0 Лицензия.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE