machine-learning model-scaling transformer-models attention-mechanism associative-memory hopfield-networks model-generalization cross-entropy-loss neural-network-performance

Архитектура блока трансформаторов: внимание и интеграция с подачей

19 июня 2025 г.

Таблица ссылок

Аннотация и 1 введение

2 Связанная работа

3 модели и 3.1 ассоциативные воспоминания

3.2 трансформаторные блоки

4 Новая энергетическая функция

4.1 Слоистая структура

5 Потеря по перекрестной энтропии

6 Эмпирические результаты и 6.1 Эмпирическая оценка радиуса

6.2 Обучение GPT-2

6.3 Тренировка ванильных трансформаторов

7 Заключение и подтверждение

Приложение A. отложенные таблицы

Приложение B. Некоторые свойства энергетических функций

Приложение C. отложенные доказательства из раздела 5

Приложение D. Трансформатор Подробности: Использование GPT-2 в качестве примера

Ссылки

3.2 трансформаторные блоки

Трансформеры (Vaswani et al., 2017) изготовлены из стопки гомогенных слоев, где каждый состоит из подслойного мультиголового внимания, подслойного подсловия, операции Add-Norm с подключением Skip и нормализации слоя. В качестве примера типичного трансформатора архитектура GPT-2 обсуждается в Приложении D. Многоугольные слои внимания и обработки (FF) учитывают большинство параметров в модели.

Наблюдение 2Слой внимания и слой подачи могут быть концептуально интегрированы в унифицированный слой трансформатора.

Слои внимания и слои FF способствуют большинству параметров модели, так что количество параметров N пропорционально квадрату измерения встраивания. Соотношение зависит от количества слоев и скрытых размеров

блоки трансформатора. В текущей работе мы не рассматриваем другие модификации, такие как боковые соединения, подключения к пропуску или другие модули сжатия, такие как (Xiong et al., 2023; Fei et al., 2023; Munkhdalai et al., 2024).

Авторы:

(1) Xueyan Niu, Theory Laboratory, Central Research Institute, 2012 Laboratories, Huawei Technologies Co., Ltd.;

(2) Бо Бай Байбо (8@huawei.com);

(3) Lei Deng (deng.lei2@huawei.com);

(4) Вэй Хан (harvey.hanwei@huawei.com).

Эта статья естьДоступно на ArxivПод CC BY-NC-ND 4.0 Лицензия.

Оригинал

Архитектура блока трансформаторов: внимание и интеграция с подачей

Таблица ссылок

3.2 трансформаторные блоки

Recent Post

Теоретическая структура: запоминание трансформатора и динамика производительности

Может ли ИИ понять шутку? Новые тестирование наборов данных ботов на метафорах, сарказме и юморе

Новый набор данных побуждает ИИ объяснить юмор и сарказм, который он «видит» и «читает»

Исследователи объединяют GPT-4 и человеческих экспертов, чтобы обучать ИИ по визуальным образном рассуждении

Может ли ИИ объяснить шутку? Не совсем - но это быстро учится

Categories