machine-learning model-scaling transformer-models attention-mechanism associative-memory hopfield-networks model-generalization cross-entropy-loss neural-network-performance

Новая энергетическая функция без регуляризации для анализа трансформатора

23 июня 2025 г.

Таблица ссылок

Аннотация и 1 введение

2 Связанная работа

3 модели и 3.1 ассоциативные воспоминания

3.2 трансформаторные блоки

4 Новая энергетическая функция

4.1 Слоистая структура

5 Потеря по перекрестной энтропии

6 Эмпирические результаты и 6.1 Эмпирическая оценка радиуса

6.2 Обучение GPT-2

6.3 Тренировка ванильных трансформаторов

7 Заключение и подтверждение

Приложение A. отложенные таблицы

Приложение B. Некоторые свойства энергетических функций

Приложение C. отложенные доказательства из раздела 5

Приложение D. Трансформатор Подробности: Использование GPT-2 в качестве примера

Ссылки

7 Заключение

Мы моделируем сети, основанные на трансформаторах с ассоциативной памятью и изучаем потерю поперечной энтропии в отношении модели и размеров данных. Предлагая новую энергетическую функцию в уравнении. 5, что не полагается на дополнительные термины регуляризации, как это распространено в современных непрерывных сетях хопфилда, мы демонстрируем, что предлагаемая энергетическая функция соответствует поиску ближайшего соседа по разным моделям, запоминающимся во время обучения. Затем мы строим глобальную энергетическую функцию для слоистой структуры моделей трансформаторов, используя метод мажоризации-минимизации.

На практике мы наблюдали, что большинство моделей трансформаторов, как правило, достигают потери кросс-энтропии приблизительно 2,2. Однако оптимальный баланс между моделью и размерами данных часто определяется коллективной экспертизой практикующих. Кроме того, производительность этих моделей может быть скомпрометирована как ранней, так и задержкой остановки.

Мы считаем, что текущая статья представляет собой важный шаг к пониманию поведения сходимости и обобщения крупных трансформаторных моделей. Он дает представление о теоретически оптимальной потерь по перекрестной энтропии, которая может проинформировать как бюджетное планирование, так и стратегии прекращения модели.

Благодарности

Автор благодарит доктора Йонгки Сюй за стимулирование дискуссий и практическую помощь в экспериментах.

Авторы:

(1) Xueyan Niu, Theory Laboratory, Central Research Institute, 2012 Laboratories, Huawei Technologies Co., Ltd.;

(2) Бо Бай Байбо (8@huawei.com);

(3) Lei Deng (deng.lei2@huawei.com);

(4) Вэй Хан (harvey.hanwei@huawei.com).

Эта статья естьДоступно на ArxivПод CC BY-NC-ND 4.0 Лицензия.

Оригинал

Новая энергетическая функция без регуляризации для анализа трансформатора

Таблица ссылок

7 Заключение

Благодарности

Recent Post

Когда ИИ становится посредником в семейных спорах о наследстве

Конец общей аннотации в здравоохранении: визуализация сердца показывает, почему

5 Рабочие процессы агента AI для повторяемого успеха (включен код)

Почему OCR борется со страницами с несколькими колоннами

Все, что я узнал (трудный путь) как начинающий основатель AI SaaS

Categories