Где происходит контекстный перевод в больших языковых моделях: заключение

Где происходит контекстный перевод в больших языковых моделях: заключение

2 сентября 2024 г.

Авторы:

(1) Сюзанна Сиа, Университет Джонса Хопкинса;

(2) Дэвид Мюллер;

(3) Кевин Да.

  • Аннотация и 1. Фон
  • 2. Данные и настройки
  • 3. Где происходит контекстный машинный перевод?
  • 4. Характеристика избыточности в слоях
  • 5. Эффективность вывода
  • 6. Дальнейший анализ
  • 7. Заключение, благодарности и ссылки
  • А. Приложение

7. Заключение

Мы демонстрируем доказательства того, что модели In-context Causal Decoder локализуют задачу перевода на определенных уровнях во время прямого вывода. Чтобы изучить это, мы ввели каузальную маскировку собственного внимания в контексте, начиная со слоя ℓ (раздел 3). Результаты обобщаются для моделей разных размеров и как для моделей без настройки на инструкции, так и для моделей с настройкой на инструкции. Мы далее определяем определенные уровни как критические для задачи и показываем, что это соответствует точке распознавания задачи модели (раздел 4.1) и не зависит от увеличения числа примеров (раздел 6.1), показанных моделям.

Наш главный вывод о том, что моделям не нужно удерживать внимание на всем контексте на каждом уровне, имеет прямые последствия для эффективности вывода преобразователей, при этом предполагаемая экономия затрат для модели ламы с 5 примерами составляет до 45% (раздел 5).

Ограничения и будущая работаМы провели обширные исследования, сосредоточившись на задаче перевода на высокоресурсной языковой паре, с небольшим расширением до en ↔ pt. В будущей работе мы надеемся распространить этот анализ на другие задачи последовательности или классификации, а также на действительно новые задачи.

ВоспроизводимостьИспользуемый нами набор данных MT, FLORES (Goyal et al., 2021), полностью открыт и хорошо известен в сообществе. Модели открыты и свободно доступны на Huggingface (Wolf et al., 2019). Мы использовали модели «разумного» размера (параметры 3B и 7B), которые можно запускать на графических процессорах потребительского уровня, что делает их воспроизводимыми для большинства академических учреждений. Код для воспроизведения всех экспериментов будет предоставлен впоследствии.

Заявление о влиянии (этика и социальные последствия)Никаких известных этических проблем не возникло, поскольку это поисковые исследования на основе открытых исходных кодов LLM.

БЛАГОДАРНОСТИ

Мы хотели бы поблагодарить Дэниела Кашаби и Марка Мароне за отзывы по предыдущим черновикам.

Ссылки

Агравал, С., Чжоу, К., Льюис, М., Цеттлемойер, Л. и Газвининеджад, М. Выбор контекстных примеров для машинного перевода. Препринт arXiv arXiv:2212.02437, 2022.

Акюрек, Э., Шурманс, Д., Андреас, Дж., Ма, Т. и Чжоу, Д. Какой алгоритм обучения является контекстным обучением? Исследования с линейными моделями. Препринт arXiv arXiv:2211.15661, 2022.

Бансал, Х., Гопалакришнан, К., Дингливал, С., Бодапати, С., Кирхгофф, К. и Рот, Д. Переосмысление роли масштаба для контекстного обучения: основанное на интерпретируемости исследование случая в масштабе 66 миллиардов. В Rogers, A., BoydGraber, J. и Okazaki, N. (ред.), Труды 61-го ежегодного собрания Ассоциации компьютерной лингвистики (том 1: длинные статьи), стр. 11833–11856, Торонто, Канада, июль 2023 г. Ассоциация компьютерной лингвистики. doi: 10.18653/v1/2023.acl-long. 660. URL https://aclanthology.org/2023.acl-long.660.

Бенке, М. и Хифилд, К. Потеря голов в лотерее: сокращение внимания трансформатора в нейронном машинном переводе. В материалах конференции 2020 года по эмпирическим методам обработки естественного языка (EMNLP), стр. 2664–2674, 2020.

Бенке, М. и Хефилд, К. Обрезка нейронного машинного перевода для скорости с использованием группового лассо. В трудах шестой конференции по машинному переводу, стр. 1074–1086, 2021.

Бен-Шауль, И. и Декель, С. Упрощение ближайшего центра класса через промежуточные слои. В Топологических, алгебраических и геометрических учебных семинарах 2022 г., стр. 37–47. PMLR, 2022.

Бхатия, К., Нараян, А., Са, К. Д. и Ре, К. Тарт: Модуль-трансформер «plug-and-play» для рассуждений, не зависящих от задачи, 2023.

Блэк, С., Лео, Г., Ванг, П., Лихи, К. и Бидерман, С. GPT-Neo: крупномасштабное авторегрессионное языковое моделирование с помощью Mesh-Tensorflow, март 2021 г. URL https:// doi.org/10.5281/zenodo.5297715.

Bommasani, R., Hudson, D. A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M. S., Bohg, J., Bosselut, A., Brunskill, E., et al. О возможностях и рисках моделей фундамента. Препринт arXiv arXiv:2108.07258, 2021.

Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., et al. Языковые модели — это обучающиеся с небольшим количеством попыток. Достижения в области нейронных систем обработки информации, 33: 1877–1901, 2020.

Clark, K., Khandelwal, U., Levy, O. и Manning, C. D. What does BERT look at? an analysis of BERT’s focus. В материалах семинара ACL 2019 BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP, стр. 276–286, Флоренция, Италия, август 2019 г. Ассоциация компьютерной лингвистики. doi: 10.18653/v1/ W19-4828. URL https://aclanthology.org/ W19-4828.

Дай, Д., Сан, И., Донг, Л., Хао, И., Ма, С., Суй, З. и Вэй, Ф. Почему gpt может учиться в контексте? языковые модели неявно выполняют градиентный спуск как метаоптимизаторы. В семинаре ICLR 2023 по математическому и эмпирическому пониманию фундаментальных моделей, 2023.

Де Као, Н., Шлихткрулл, М. С., Азиз, В. и Титов, И. Как решения возникают на разных уровнях в нейронных моделях? интерпретация с дифференцируемым маскированием. В материалах конференции 2020 года по эмпирическим методам обработки естественного языка (EMNLP), стр. 3243–3255, 2020.

Дуррани, Н., Саджад, Х., Далви, Ф. и Алам, Ф. О трансформации скрытого пространства в тонко настроенных моделях НЛП. Препринт arXiv arXiv:2210.12696, 2022.

Фурнье, К., Карон, Г. М. и Алоиз, Д. Практический обзор более быстрых и легких трансформаторов. ACM Computing Surveys, 55(14s):1–40, 2023.

Гао, Л., Бидерман, С., Блэк, С., Голдинг, Л., Хоппе, Т., Фостер, К., Фан, Дж., Хе, Х., Тите, А., Набешима, Н. и др. The Pile: набор данных объемом 800 ГБ с разнообразным текстом для моделирования языка. Препринт arXiv arXiv:2101.00027, 2020.

Гарсия, X., Бансал, Y., Черри, C., Фостер, G., Крикун, M., Фэн, F., Джонсон, M. и Фират, O. Необоснованная эффективность обучения с малым количеством попыток для машинного перевода. Препринт arXiv arXiv:2302.01398, 2023.

Гарг, С., Ципрас, Д., Лян, П. С. и Валиант, Г. Что могут изучать трансформаторы в контексте? пример простых классов функций. Достижения в области нейронных систем обработки информации, 35:30583–30598, 2022.

Goyal, N., Gao, C., Chaudhary, V., Chen, P.-J., Wenzek, G., Ju, D., Krishnan, S., Ranzato, M., Guzmán, F. и Fan, A. Тест оценки flores-101 для малоресурсного и многоязычного машинного перевода. 2021.

Хенди, А., Абдельрехим, М., Шараф, А., Раунак, В., Габр, М., Мацушита, Х., Ким, Й. Дж., Афифи, М. и Авадалла, Х. Х. Насколько хороши модели gpt для машинного перевода? Комплексная оценка. Препринт arXiv arXiv:2302.09210, 2023.

Хьюитт, Дж. и Лян, П. Проектирование и интерпретация зондов с задачами управления. Препринт arXiv arXiv:1909.03368, 2019.

Ху, Э. Дж., Шен, И., Уоллис, П., Аллен-Чжу, З., Ли, И., Ван, С., Ван, Л. и Чен, В. Лора: Низкоранговая адаптация больших языковых моделей. Препринт arXiv arXiv:2106.09685, 2021.

Джанг, Э., Гу, С. и Пул, Б. Категориальная репараметризация с помощью gumbel-softmax. Препринт arXiv arXiv:1611.01144, 2016.

Koehn, P. Europarl: Параллельный корпус для статистического машинного перевода. В Трудах саммита машинного перевода x: статьи, стр. 79–86, 2005.

Лоренсон Х., Солнье Л., Ван Т., Акики К., Вилланова дель Мораль А., Ле Скао Т., Фон Верра Л., Моу К., Гонсалес Понферрада Э., Нгуен Х. и др. Корпус корней большой науки: составной многоязычный набор данных объемом 1,6 ТБ. Достижения в области нейронных систем обработки информации, 35: 31809–31826, 2022.

Ли, С., Сун, З., Ся, И., Ю, Т. и Чжоу, Т. Близость контекстного обучения и смещения веса для регрессии softmax. Препринт arXiv arXiv:2304.13276, 2023.

Lin, X. V., Mihaylov, T., Artetxe, M., Wang, T., Chen, S., Simig, D., Ott, M., Goyal, N., Bhosale, S., Du, J., Pasunuru, R., Shleifer, S., Koura, P. S., Chaudhary, V., O’Horo, B., Wang, J., Zettlemoyer, L., Kozareva, Z., Diab, M., Stoyanov, V. и Li, X. Малошумное обучение с использованием многоязычных генеративных языковых моделей. В материалах конференции 2022 года по эмпирическим методам обработки естественного языка, стр. 9019–9052, Абу-Даби, Объединенные Арабские Эмираты, декабрь 2022 г. Ассоциация компьютерной лингвистики. doi: 10.18653/v1/2022.emnlp-main.616. URL https://aclanthology.org/2022.emnlp-main.616.

Liu, J., Shen, D., Zhang, Y., Dolan, B., Carin, L. и Chen, W. Что делает хорошие примеры в контексте для GPT-3? В Proceedings of Deep Learning Inside Out (DeeLIO 2022): 3-й семинар по извлечению и интеграции знаний для архитектур глубокого обучения, стр. 100–114, Дублин, Ирландия и онлайн, май 2022 г. Ассоциация компьютерной лингвистики. doi: 10.18653/v1/2022. deelio-1.10. URL https://aclanthology.org/ 2022.deelio-1.10.

Луизос, К., Уэллинг, М. и Кингма, Д. П. Обучение разреженных нейронных сетей с помощью регуляризации l_0. Препринт arXiv arXiv:1712.01312, 2017.

Lu, Y., Bartolo, M., Moore, A., Riedel, S. и Stenetorp, P. Fantastically order prompts and where to find them: Overcoming few-shot prompt order sensitive. В трудах 60-го ежегодного собрания Ассоциации компьютерной лингвистики (том 1: длинные статьи), стр. 8086–8098, Дублин, Ирландия, май 2022 г. Ассоциация компьютерной лингвистики. doi: 10.18653/v1/2022.acl-long.556. URL https: //aclanthology.org/2022.acl-long.556.

Мэддисон, К. Дж., Мних, А. и Тех, Й. В. Конкретное распределение: непрерывная релаксация дискретных случайных величин. Препринт arXiv arXiv:1611.00712, 2016.

Мишель, П., Леви, О. и Нойбиг, Г. Действительно ли шестнадцать голов лучше, чем одна? Достижения в области нейронных систем обработки информации, 32, 2019.

Муслем, Й., Хак, Р. и Уэй, А. Адаптивный машинный перевод с большими языковыми моделями. Препринт arXiv arXiv:2301.13294, 2023.

Pasad, A., Chou, J.-C. и Livescu, K. Послойный анализ модели самоконтролируемого представления речи. В 2021 году IEEE Automatic Speech Recognition and Understanding Workshop (ASRU), стр. 914–921. IEEE, 2021.

Фан, Дж., Лю, Х. и Боуман, С. Р. Тонко настроенные трансформаторы показывают кластеры схожих представлений по слоям. Препринт arXiv arXiv:2109.08406, 2021.

Пост, М. Призыв к ясности в представлении оценок bleu. Препринт arXiv arXiv:1804.08771, 2018.

Саджад, Х., Далви, Ф., Дуррани, Н. и Наков, П. Об эффекте удаления слоев предварительно обученных моделей трансформаторов. Компьютерная речь и язык, 77:101429, 2023.

Сан В., Вебсон А., Раффель К., Бах С., Сутавика Л., Аляфеай З., Чаффин А., Стиглер А., Раджа А., Дей М., Бари, М.С., Сюй, К., Таккер, У., Шарма, С.С., Щехла, Э., Ким, Т., Чаблани, Г., Наяк, Н., Датта, Д., Чанг, Дж., Цзян, М.Т.-Дж., Ван, Х., Маника, М., Шен, С., Йонг, З.К., Панди, Х., Боуден, Р., Ван, Т., Нирадж, Т., Розен, Дж., Шарма , А., Сантилли А., Феври Т., Фрис Дж. А., Тихан Р., Scao, T. L., Biderman, S., Gao, L., Wolf, T. и Rush, A. M. Многозадачное обучение с подсказками позволяет обобщать задачи с нуля. На Международной конференции по представлениям обучения, 2022. URL https:// openreview.net /форум?id=9Vrb9D0WI4.

Скао Т.Л., Фан А., Акики К., Павлик Э., Илич С., Хесслоу Д., Кастанье Р., Луччиони А.С., Ивон Ф., Галле М. и др. ал. Bloom: Многоязычная языковая модель открытого доступа с 176 параметрами. Препринт arXiv arXiv:2211.05100, 2022.

Сиа, С. и Дух, К. Контекстное обучение как поддержание связности: исследование машинного перевода «на лету» с использованием больших языковых моделей. Препринт arXiv arXiv:2305.03573, 2023.

Туврон, Х., Лавриль, Т., Изакар, Г., Мартине, Х., Лашо, М.-А., Лакруа, Т., Розьер, Б., Гойал, Н., Хамбро, Э., Ажар, Ф. и др. Лама: открытые и эффективные базовые языковые модели. Препринт arXiv arXiv:2302.13971, 2023.

Войта, Э., Сеннрих, Р. и Титов, И. Эволюция представлений снизу вверх в трансформаторе: исследование с целями машинного перевода и моделирования языка. Препринт arXiv arXiv:1909.01380, 2019a.

Voita, E., Talbot, D., Moiseev, F., Sennrich, R. и Titov, I. Анализ многоголового внутреннего внимания: специализированные головы выполняют тяжелую работу, остальное можно сократить. В трудах 57-го ежегодного собрания Ассоциации компьютерной лингвистики, стр. 5797–5808, Флоренция, Италия, июль 2019 г. Ассоциация компьютерной лингвистики. doi: 10.18653/v1/P19-1580. URL https://aclanthology.org/P19-1580.

фон Освальд, Дж., Никлассон, Э., Рандаццо, Э., Сакраменто, Дж., Мордвинцев, А., Жмогинов, А. и Владимиров, М. Трансформеры обучаются в контексте с помощью градиентного спуска, 2023.

Ван, Ю., Мишра, С., Алипурмолабаши, П., Корди, Ю., Мирзаи, А., Наик, А., Ашок, А., Дханасекаран, А. С., Арункумар, А., Стап, Д., Патхак, Э., Караманолакис, Г., Лай, Х., Пурохит, И., Мондал, И., Андерсон, Дж., Кузния, К., Доши, К., Пал, К. К., Патель, М., Морадшахи, М., Пармар, М., Пурохит, М., Варшни, Н., Каза, П. Р., Верма, П., Пури, Р. С., Кария, Р., Доши, С., Сампат, С. К., Мишра, С., Редди А. С., Патро, С., Диксит, Т. и Шен, X. Super-NaturalInstructions: Обобщение с помощью декларативных инструкций для более чем 1600 задач обработки естественного языка. В трудах конференции 2022 года по эмпирическим методам обработки естественного языка, стр. 5085–5109, Абу-Даби, Объединенные Арабские Эмираты, декабрь 2022 г. Ассоциация компьютерной лингвистики. doi: 10.18653/v1/2022.emnlp-main.340. URL https:// aclanthology.org/2022.emnlp-main.340.

Wei, J., Wang, X., Schuurmans, D., Bosma, M., brian ichter, Xia, F., Chi, E. H., Le, Q. V. и Zhou, D. Chain of thought prompting elicits reasoning in large language models. В Oh, A. H., Agarwal, A., Belgrave, D. и Cho, K. (ред.), Advances in Neural Information Processing Systems, 2022. URL https://openreview.net/ forum?id=_VjQlMeSB_J.

Вэй, Дж., Вэй, Дж., Тай, И., Тран, Д., Вебсон, А., Лу, И., Чэнь, С., Лю, Х., Хуан, Д., Чжоу, Д. и Ма, Т. Более крупные языковые модели по-разному выполняют контекстное обучение, 2023.

Вайс, Н., Левин, Ю. и Шашуа, А. Обучаемость контекстного обучения. Препринт arXiv arXiv:2303.07895, 2023.

Wolf, T., Debut, L., Sanh, V., Chaumond, J., Delangue, C., Moi, A., Cistac, P., Rault, T., Louf, R., Funtowicz, M. и др. Трансформаторы Huggingface: современная обработка естественного языка. Препринт arXiv arXiv:1910.03771, 2019.

Xie, S., Qiu, J., Pasad, A., Du, L., Qu, Q. и Mei, H. Скрытая изменчивость состояний предварительно обученных языковых моделей может способствовать сокращению вычислений для трансферного обучения. Препринт arXiv arXiv:2210.10041, 2022.

Се, С. М., Рагхунатхан, А., Лян, П. и Ма, Т. Объяснение контекстного обучения как неявного байесовского вывода. Препринт arXiv arXiv:2111.02080, 2021.

Эта статьядоступно на arxivпо лицензии CC BY 4.0 DEED.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE