Анализ потерь по перекрестной энтропии в трансформаторных сетях

Анализ потерь по перекрестной энтропии в трансформаторных сетях

19 июня 2025 г.

Аннотация и 1 введение

2 Связанная работа

3 модели и 3.1 ассоциативные воспоминания

3.2 трансформаторные блоки

4 Новая энергетическая функция

4.1 Слоистая структура

5 Потеря по перекрестной энтропии

6 Эмпирические результаты и 6.1 Эмпирическая оценка радиуса

6.2 Обучение GPT-2

6.3 Тренировка ванильных трансформаторов

7 Заключение и подтверждение

Приложение A. отложенные таблицы

Приложение B. Некоторые свойства энергетических функций

Приложение C. отложенные доказательства из раздела 5

Приложение D. Трансформатор Подробности: Использование GPT-2 в качестве примера

Ссылки

5 Потеря по перекрестной энтропии

Теперь мы приступаем к анализу потери трансформаторных сетей. Потеря по перекрестной энтропии, которая измеряет разницу между прогнозируемыми вероятностями и фактическими этикетками, обычно используется для обучения моделей трансформаторов. Механизм внимания включает в себя операцию SoftMax, которая выводит распределение вероятностей p ∈ ∆n. На практике окончательный выход Softmax затем подается в специфический слой для задач, такие как прогнозы и классификации. Таким образом, мы сравниваем последний выход Softmax блоков трансформатора с целевым распределением.

У нас есть следующий результат относительно потери перекрестной энтропии.

Замечание 2Перекрестная энтропия может быть написана как

Когда модель сильно перепаратирована, энергетическая функция вполне может приблизительно приближать энергию распределения образцов. В этом случае минимальная перекрестная энтропия равна энтропии тренировочных образцов.

Затем мы более внимательно рассмотрим функцию разделения слоя. У нас есть

В таблице 2 в Приложении A мы сравниваем сообщенную потерю перекрестной энтропии различных трансформаторных моделей в литературе. Обычно сообщается о семействе моделей в различных размерах, и мы выбираем самые большие. Мы наблюдаем, что аналогичные потери перекрестной энтропии достигаются в широком диапазоне архитектурных форм (включая глубину, ширину, головки внимания, размеры FF и длину контекста). Тем не менее, все потери удовлетворяют L> 1.

Замечание 3Мы отмечаем, что некоторые модели добавляют термины вспомогательной регуляризации, такие как Z-Loss (Chowdhry et al., 2023; Yang et al., 2023) во время их обучения. В этих случаях законы масштабирования должны учитывать дополнительные условия. Кроме того, модификации к блокам трансформатора, такие как дополнительная нормализация слоя, могут способствовать нижней границе поперечной энтропии.

Авторы:

(1) Xueyan Niu, Theory Laboratory, Central Research Institute, 2012 Laboratories, Huawei Technologies Co., Ltd.;

(2) Бо Бай Байбо (8@huawei.com);

(3) Lei Deng (deng.lei2@huawei.com);

(4) Вэй Хан (harvey.hanwei@huawei.com).


Эта статья естьДоступно на ArxivПод CC BY-NC-ND 4.0 Лицензия.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE