
Новая энергетическая функция для трансформаторов: нет внешней регуляризации
19 июня 2025 г.Таблица ссылок
Аннотация и 1 введение
2 Связанная работа
3 модели и 3.1 ассоциативные воспоминания
3.2 трансформаторные блоки
4 Новая энергетическая функция
4.1 Слоистая структура
5 Потеря по перекрестной энтропии
6 Эмпирические результаты и 6.1 Эмпирическая оценка радиуса
6.2 Обучение GPT-2
6.3 Тренировка ванильных трансформаторов
7 Заключение и подтверждение
Приложение A. отложенные таблицы
Приложение B. Некоторые свойства энергетических функций
Приложение C. отложенные доказательства из раздела 5
Приложение D. Трансформатор Подробности: Использование GPT-2 в качестве примера
Ссылки
4 Новая энергетическая функция
Сначала мы представляем новую энергетическую функцию, которая не полагается на дополнительные термины регуляризации. Затем мы адаптируем эту функцию к слоистым блокам трансформатора, используя методику минимизации мажоризации. Для справки, соответствующие энергетические функции для сетей Hopfield перечислены в таблице 1 в Приложении A. В частности, энергетическая функция для современной непрерывной сети Hopfield (Ramsauer et al., 2020) является
Обратите внимание, что отрицательная функция logsumexp была адаптирована (Demircigil et al., 2017). Однако в непрерывном домене отрицательная функция logsumexp не является выпуклой, что делает ее менее подходящим кандидатом для энергетической функции. Энергия MCHN затем добавляет термины регуляризации для создания выпуклой энергетической функции. Эти термины регуляризации включают как максимальную норму ввода, так и количество шаблонов.
Вместо проектирования различных терминов регуляризации мы определяем новую энергетическую функцию с помощью вспомогательной функции
Мы рассмотрим новую энергетическую функцию E (x), которая также принимает форму logsumexp. Стоит отметить, что функция SoftMax является градиентом функции LogSumexP. Суммируя отрицательное расстояние между x и каждым хранимым рисунком, функция назначает меньшие значения для точек вблизи шаблонов. Наша предлагаемая энергетическая функция
Заменив точечный продукт в энергии MCHN на метрику расстояния, E (x) достигает той же цели без дополнительной регуляризации. Как показано на рисунках 1A и 1B, в качестве расширения (Demircigil et al., 2017), отрицательный logsumexp не является выпуклой в реальной области, поэтому применяются термины регуляризации. Рисунки 1D и 1C показывают, что ландшафт предлагаемой энергии напоминает энергию MCHN. В (Ramsauer et al., 2020) показано, что EMCHN индуцирует стационарные точки вблизи хранимых паттернов. Здесь предложенная функция e (x) служит плавным суррогатом желаемой функции g (x) в уравнении. (3), следовательно, также демонстрирует способность поиска.
Поскольку предлагаемая энергия и энергия MCHN оба приближают поиск ближайшей схемы (желаемая стационарная точка), в соответствии с теоремой 4 в (Ramsauer et al., 2020), в каждом слое трансформатора, плотность вероятности слоя трансформатора, соответствующая поискам, является
Авторы:
(1) Xueyan Niu, Theory Laboratory, Central Research Institute, 2012 Laboratories, Huawei Technologies Co., Ltd.;
(2) Бо Бай Байбо (8@huawei.com);
(3) Lei Deng (deng.lei2@huawei.com);
(4) Вэй Хан (harvey.hanwei@huawei.com).
Эта статья есть
Оригинал