
Теория трансформатора и ссылки LLM: вот что вы должны проверить
25 июня 2025 г.Таблица ссылок
Аннотация и 1 введение
2 Связанная работа
3 модели и 3.1 ассоциативные воспоминания
3.2 трансформаторные блоки
4 Новая энергетическая функция
4.1 Слоистая структура
5 Потеря по перекрестной энтропии
6 Эмпирические результаты и 6.1 Эмпирическая оценка радиуса
6.2 Обучение GPT-2
6.3 Тренировка ванильных трансформаторов
7 Заключение и подтверждение
Приложение A. отложенные таблицы
Приложение B. Некоторые свойства энергетических функций
Приложение C. отложенные доказательства из раздела 5
Приложение D. Трансформатор Подробности: Использование GPT-2 в качестве примера
Ссылки
Ссылки
С.-И. Амари. Обучение моделей и последовательностей шаблонов с помощью самоорганизующихся сетей пороговых элементов. IEEE Transactions на компьютерах, 100 (11): 1197–1206, 1972.
R. Anil, A.M. Dai, O. Firat, M. Johnson, D. Lepikhin, A. Passos, S. Shakeri, E. Taropa, P. Bailey, Z. Chen, et al. Палм 2 Технический отчет. Arxiv Preprint arxiv: 2305.10403, 2023.
Т. У. Дж. Бэнкс и Т. Варкентин. Gemma: Представление новых современных открытых моделей, 2024.
М. Белкин, Д. Хсу, С. М.А. и С. Мандал. Примирение современной практики машинного обучения и классический компромисс и вариант. Материалы Национальной академии наук, 116 (32): 15849–15854, 2019.
Н. Карлини, Д. Ипполито, М. Ягельский, К. Ли, Ф. Трамер и С. Чжан. Количественная оценка запоминания в моделях нейронного языка. В Одиннадцатой международной конференции по обучению, 2022.
Т. А. Чанг и Б. К. Берген. Приобретение слов в моделях нейронного языка. Транзакции Ассоциации вычислительной лингвистики, 10: 1–16, 2022.
Т. А. Чанг и Б. К. Берген. Языковая модель поведения: комплексный опрос. Вычислительная лингвистика, страницы 1–58, 2024.
A. Chowdery, S. Narang, J. Devlin, M. Bosma, G. Mishra, A. Roberts, P. Barham, H. W. Chung, C. Sutton, S. Gehrmann, et al. PALM: Моделирование языка масштабирования с помощью путей. Журнал исследований машинного обучения, 24 (240): 1–113, 2023.
С. Д'Асколи, Л. Сагун и Г. Бироли. Тройной спуск и два вида переживания: где и почему они появляются? Достижения в системах обработки нейронной информации, 33: 3058–3069, 2020.
M. Demircigil, J. Heusel, M. Lой, S. Upgang и F. Vermet. На модели ассоциативной памяти с огромной емкостью хранения. Журнал статистической физики, 168: 288–299, 2017.
Z. Du, A. Zeng, Y. Dong и J. Tang. Понимание возникающих способностей языковых моделей с точки зрения потери. Arxiv Preprint arxiv: 2403.15796, 2024.
W. Fei, X. Niu, P. Zhou, L. Hou, B. Bai, L. Deng и W. Han. Расширение контекстного окна крупных языковых моделей посредством семантического сжатия. Arxiv Preprint arxiv: 2312.09571, 2023.
S. Y. Gadre, G. Smyrnis, V. Shankar, S. Gururangan, M. Wortsman, R. Shao, J. Mercat, A. Fang, J. Li, S. Keh, et al. Языковые модели надежно масштабируются с переоборудованием и в нижестоящих задачах. Arxiv Preprint arxiv: 2403.08540, 2024.
М. Гева, Р. Шустер, Дж. Берант и О. Леви. Слои трансформатора-переноса являются воспоминаниями о ключевых значениях. Arxiv Preprint arxiv: 2012.14913, 2020.
А. Гокаслан и В. Коэн. OpenWebText Corpus. http://skylion007.github.io/ openwebtextcorpus, 2019.
W. Grathwohl, K.-C. Ван, Дж. Х. Jacobsen, D. Duvenaud, M. Norouzi и K. Swersky. Ваш классификатор тайно является энергетической моделью, и вы должны относиться к ней как к одному. В Международной конференции по обучению, 2019 год.
J. Hoffmann, S. Borgeaud, A. Mensch, E. Buchatskaya, T. Cai, E. Rutherford, D. D. L. Casas, L.A. Hendricks, J. Welbl, A. Clark, et al. Обучение вычислительно-оптимально больших языковых моделей. Arxiv Preprint arxiv: 2203.15556, 2022a.
J. Hoffmann, S. Borgeaud, A. Mensch, E. Buchatskaya, T. Cai, E. Rutherford, D. de Las Casas, L. A. Hendricks, J. Welbl, A. Clark, et al. Эмпирический анализ вычислительного оптимального обучения крупной языковой модели. Достижения в системах обработки нейронной информации, 35: 30016–30030, 2022b.
Дж. Дж. Хопфилд. Нейронные сети и физические системы с возникающими коллективными вычислительными способностями. Труды Национальной академии наук, 79 (8): 2554–2558, 1982.
Дж. Ся, А. Шейх, З. Ван и Г. Нойбиг. Рваный: к информированному дизайну систем извлечения дополненных генерации. Arxiv Preprint arxiv: 2403.09040, 2024.
S. Hu, Y. Tu, X. Han, C. He, G. Cui, X. Long, Z. Zheng, Y. Fang, Y. Huang, W. Zhao, et al. Minicpm: раскрыть потенциал малых языковых моделей с масштабируемыми стратегиями обучения. Arxiv Preprint arxiv: 2404.06395, 2024.
A. Q. Jiang, A. Sablayrolles, A. Mensch, C. Bamford, D. S. Chaplot, D. D. л. Casas, F. Bressand, G. Lengyel, G. Lample, L. Saulnier, et al. Мишстраль 7b. Arxiv Preprint arxiv: 2310.06825, 2023.
J. Kaplan, S. McCandlish, T. Henighan, T. B. Brown, B. Chess, R. Child, S. Grey, A. Radford, J. Wu и D. Amodei. Масштабирование законов для моделей нейронного языка. Arxiv Preprint arxiv: 2001.08361, 2020.
U. Khandelwal, O. Levy, D. Jurafsky, L. Zettlemoyer и M. Lewis. Обобщение посредством запоминания: ближайшие модели языка соседей. Arxiv Preprint arxiv: 1911.00172, 2019.
Д. Кротов. Иерархическая ассоциативная память. Arxiv Preprint arxiv: 2107.06446, 2021.
Д. Кротов и Дж. Дж. Хопфилд. Плотная ассоциативная память для распознавания образцов. Достижения в области систем обработки нейронной информации, 29, 2016.
Y. Lecun, S. Chopra, R. Hadsell, M. Ranzato и F. Huang. Учебное пособие по энергетическому обучению. Прогнозирование структурированных данных, 1 (0), 2006.
Р. Т. Маккой, Р. Франк и Т. Линзен. Нужно ли синтаксис расти на деревьях? Источники иерархического индуктивного смещения в сети последовательности к последовательности. Транзакции Ассоциации по вычислительной лингвистике, 8: 125–140, 2020.
Н. Менендигофф, А. Раш, Б. Барак, Т. Ле Скао, Н. Тази, А. Пиктус, С. Писало, Т. Вольф и С. А. Раффель. Масштабирование языковых моделей с ограниченными данными. Достижения в системах обработки нейронной информации, 36, 2024.
Т. Мунхдалай, М. Фаруки и С. Гопал. Не оставляйте контекста позади: эффективные бесконечные контекстные трансформаторы с индивидуальным вниманием. Arxiv Preprint arxiv: 2404.07143, 2024.
С. Мурти, П. Шарма, Дж. Андреас и С. Д. Мэннинг. Грокинг иерархической структуры в ванильных трансформаторах. Arxiv Preprint arxiv: 2305.18741, 2023.
P. Nakkiran, G. Kaplun, Y. Bansal, T. Yang, B. Barak и I. Sutskever. Глубокий двойной спуск: где большие модели и больше данных повредят. Журнал статистической механики: теория и эксперимент, 2021 (12): 124003, 2021.
J. Ortega и W. Rheinboldt. Итеративное решение нелинейных уравнений в нескольких переменных, том 30. Siam, 1970.
A. Power, Y. Burda, H. Edwards, I. Babuschkin и V. Misra. Грокикинг: обобщение за пределами переживания на небольших алгоритмических наборах данных. Arxiv Preprint arxiv: 2201.02177, 2022.
О. Пресс и Л. Вольф. Использование вывода, встраиваемого для улучшения языковых моделей. В материалах 15 -й конференции Европейской главы Ассоциации вычислительной лингвистики: том 2, короткие документы, страницы 157–163, 2017.
A. Radford, J. Wu, R. Child, D. Luan, D. Amodei и I. Sutskever. Языковые модели - это неконтролируемые многозадачные ученики. 2019.
J. W. Rae, S. Borgeaud, T. Cai, K. Millican, J. Hoffmann, F. Song, J. Aslanides, S. Henderson, R. Ring, S. Young, et al. Масштабирование языковых моделей: методы, анализ и понимание от обучения Gopher. Arxiv Preprint arxiv: 2112.11446, 2021.
H. Ramsauer, B. Sch¨afl, J. Lehner, P. Seidl, M. Widrich, L. Gruber, M. Holzleitner, T. Adler, D. Kreil, M.K. Kopp, et al. Hopfield Networks - это все, что вам нужно. В Международной конференции по обучению, 2020 год.
S. Smith, M. Patwary, B. Norick, P. Legresley, S. Rajbhandari, J. Casper, Z. Liu, S. Prabhumoye, G. Zerveas, V. Korthikanti, et al. Используя DeepSpeed и Megatron для обучения Megatron-Tuging NLG 530B, крупномасштабной генеративной языковой модели. Arxiv Preprint arxiv: 2201.11990, 2022.
S. Sukhbaatar, E. Grave, G. Lample, H. Jegou и A. Joulin. Увеличение самопринятия с постоянной памятью. Arxiv Preprint arxiv: 1907.01470, 2019.
Y. Sun, P. Babu и D. P. Palomar. Алгоритмы мажоризации-минимизации при обработке сигналов, коммуникации и машинного обучения. Транзакции IEEE по обработке сигналов, 65 (3): 794–816, 2016.
К. Тирумала, А. Маркосан, Л. Зеттлемуер и А. Агаджаньян. Запоминание без переживания: анализ динамики обучения крупных языковых моделей. Достижения в системах обработки нейронной информации, 35: 38274–38290, 2022.
H. Touvron, L. Martin, K. Stone, P. Albert, A. Almahairi, Y. Babaei, N. Bashlykov, S. Batra, P. Bhargava, S. Bhosale, et al. Llama 2: Open Foundation и тонкие модели чата. Arxiv Preprint arxiv: 2307.09288, 2023.
A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A.N. Gomez, L. Kaiser и I. Polosukhin. Внимание - это все, что вам нужно. Достижения в области систем обработки нейронной информации, 30, 2017.
W. Xiong, J. Liu, I. Molybog, H. Zhang, P. Bhargava, R. Hou, L. Martin, R. Rungta, K. A. Sankararaman, B. Oguz, et al. Эффективное масштабирование с длинным контекстом моделей фундамента. Arxiv Preprint arxiv: 2309.16039, 2023.
A. Yang, B. Xiao, B. Wang, B. Zhang, C. Bian, C. Yin, C. LV, D. Pan, D. Wang, D. Yan, et al. Baichuan 2: открытые крупномасштабные языковые модели. Arxiv Preprint arxiv: 2309.10305, 2023.
Авторы:
(1) Xueyan Niu, Theory Laboratory, Central Research Institute, 2012 Laboratories, Huawei Technologies Co., Ltd.;
(2) Бо Бай Байбо (8@huawei.com);
(3) Lei Deng (deng.lei2@huawei.com);
(4) Вэй Хан (harvey.hanwei@huawei.com).
Эта статья есть
Оригинал