machine-learning model-scaling transformer-models attention-mechanism associative-memory hopfield-networks model-generalization cross-entropy-loss neural-network-performance

Теоретические производные: потери потери энтропии и энергетические функции в LLMS

24 июня 2025 г.

Таблица ссылок

Аннотация и 1 введение

2 Связанная работа

3 модели и 3.1 ассоциативные воспоминания

3.2 трансформаторные блоки

4 Новая энергетическая функция

4.1 Слоистая структура

5 Потеря по перекрестной энтропии

6 Эмпирические результаты и 6.1 Эмпирическая оценка радиуса

6.2 Обучение GPT-2

6.3 Тренировка ванильных трансформаторов

7 Заключение и подтверждение

Приложение A. отложенные таблицы

Приложение B. Некоторые свойства энергетических функций

Приложение C. отложенные доказательства из раздела 5

Приложение D. Трансформатор Подробности: Использование GPT-2 в качестве примера

Ссылки

Приложение C. отложенные доказательства из раздела 5

C.1 Доказательство предложения 4

C.2

Авторы:

(1) Xueyan Niu, Theory Laboratory, Central Research Institute, 2012 Laboratories, Huawei Technologies Co., Ltd.;

(2) Бо Бай Байбо (8@huawei.com);

(3) Lei Deng (deng.lei2@huawei.com);

(4) Вэй Хан (harvey.hanwei@huawei.com).

Эта статья естьДоступно на ArxivПод CC BY-NC-ND 4.0 Лицензия.

Оригинал

Теоретические производные: потери потери энтропии и энергетические функции в LLMS

Таблица ссылок

Приложение C. отложенные доказательства из раздела 5

C.1 Доказательство предложения 4

C.2

Recent Post

Когда ИИ становится посредником в семейных спорах о наследстве

Конец общей аннотации в здравоохранении: визуализация сердца показывает, почему

5 Рабочие процессы агента AI для повторяемого успеха (включен код)

Почему OCR борется со страницами с несколькими колоннами

Все, что я узнал (трудный путь) как начинающий основатель AI SaaS

Categories