Где происходит контекстный перевод в больших языковых моделях: аннотация и предыстория

Где происходит контекстный перевод в больших языковых моделях: аннотация и предыстория

2 сентября 2024 г.

Авторы:

(1) Сюзанна Сиа, Университет Джонса Хопкинса;

(2) Дэвид Мюллер;

(3) Кевин Да.

  • Аннотация и 1. Фон
  • 2. Данные и настройки
  • 3. Где происходит контекстный машинный перевод?
  • 4. Характеристика избыточности в слоях
  • 5. Эффективность вывода
  • 6. Дальнейший анализ
  • 7. Заключение, благодарности и ссылки
  • А. Приложение

Абстрактный

Самоконтролируемые большие языковые модели продемонстрировали способность выполнять машинный перевод (МП) посредством контекстного обучения, но мало что известно о том, где модель выполняет задачу относительно подсказок и демонстрационных примеров. В этой работе мы пытаемся охарактеризовать область, где большие языковые модели переходят от обучения в контексте к моделям перевода. С помощью серии экспериментов по послойному маскированию контекста на GPTNEO2.7B, BLOOM3B, LLAMA7B и LLAMA7B-CHAT мы демонстрируем доказательства точки «распознавания задачи», где задача перевода кодируется во входных представлениях, и внимание к контексту больше не требуется. Мы также наблюдаем соответствие между низкой производительностью при маскировании целых слоев и слоями распознавания задач. Использование этой избыточности приводит к 45% экономии вычислительных ресурсов при подсказках с 5 примерами, а распознавание задач достигается на уровне 14/32. Наши эксперименты по послойной тонкой настройке показывают, что наиболее эффективными слоями для тонкой настройки МП являются слои, критически важные для распознавания задач.

Контекстное обучение (ICL)относится к явлению, при котором большие генеративные предварительно обученные трансформаторы (GPT) выполняют задачи без обновлений градиента, когда им показывают примеры задач или описания в их контексте (Brown et al., 2020; Bommasani et al., 2021). Хотя контекстное обучение в моделях GPT, по-видимому, в целом применимо к любой задаче на естественном языке, для изучения местоположения задачи мы используем машинный перевод (MT), поскольку нет никакой двусмысленности в оценке того, распознала ли модель задачу, поскольку она должна генерировать токены на другом языке. Хотя контекстный MT еще не достиг паритета с контролируемыми нейронными моделями MT, его стандартная производительность перевода сравнительно сильна и предполагает многообещающее направление для будущего MT (Hendy et al., 2023; Garcia et al., 2023). Предыдущая работа по контекстному машинному переводу была сосредоточена на разработке подсказок, рассматривая модели GPT как черные ящики, фокусируясь на том, какие примеры предоставлять в контексте (Moslem et al., 2023). Agrawal et al. (2022) применяют поиск на основе сходства для выбора контекстных примеров, в то время как Sia & Duh (2023) предлагают подход на основе согласованности. Однако эти работы применяют вмешательства на поверхностном уровне, оставляя внутренний механизм машинного перевода в моделях GPT в значительной степени неизученным.

В этой работе мы просимгде происходит контекстный машинный переводв моделях GPT? Мы проводим первоначальное исследование по обнаружению слоев собственного внимания, ответственных за контекстный MT в трех базовых предварительно обученных и настроенных на одну инструкцию моделях GPT с открытым исходным кодом. Используя причинное маскирование в различных частях контекста, мы демонстрируем, что существует точка «распознавания задачи», после которой внимание к контексту больше не требуется (раздел 3). Потенциальные последствия заключаются в большой экономии вычислительных ресурсов, когда контекст в несколько раз длиннее исходного предложения теста (раздел 5). Определив слои, в которых происходит «распознавание задачи», мы изучаем, в какой степени последующие слои являются либо избыточными, либо соответствующими слоям «распознавания задачи». Простое послойное маскирование показывает, что для моделей с 3B параметрами удаление внимания вокруг слоев «распознавания задачи» может привести к тому, что модель не сможет выполнить перевод в целом, тогда как слои ближе к концу модели гораздо более избыточны (раздел 4.1).

Далее мы наблюдаем, что очень легкая тонкая настройка параметров LoRA (Hu et al., 2021) наиболее эффективна на более ранних уровнях модели по сравнению с более поздними (Раздел 6.2). Это подтверждает предположение о том, что более ранние уровни более важны для задачи.

Мы далее исследуем степень избыточности задач MT, используя дифференцируемую регуляризацию L0 для обучения дискретных ворот головок внимания (раздел 6.5). Мы обнаружили, что около 10% головок внимания могут быть замаскированы, что принципиально отличается от литературы по контролируемой НМТ, где головки внимания являются узкоспециализированными для MT (Voita et al., 2019b; Michel et al., 2019; Behnke & Heafield, 2021).

1. Предыстория

Контекстное обучениевпервые продемонстрировали Браун и др. (2020), которые показали, что GPT-3 можно использовать для выполнения огромного множества задач без каких-либо специфических для задачи параметров или обучения, обуславливая генерацию модели подсказкой, которая включала несколько помеченных примеров интересующей задачи. С тех пор интерес к использованию моделей GPT для ICL значительно вырос, и в нескольких недавних работах были представлены такие методы, как настройка инструкций (Sanh et al., 2022; Wang et al., 2022) или подсказка цепочки мыслей (Wei et al., 2022) для повышения точности ICL ниже по потоку.

По-видимому, ICL может работать практически для любой задачи, которая может быть определена или описана на естественном языке, и, следовательно, имеет потенциал для невероятно широкого воздействия. Однако ICL часто все еще может уступать контролируемой тонкой настройке (Bhatia et al., 2023), что побуждает исследования по анализу механизмов, лежащих в основе ICL. Одно направление работы изучает контекстное обучение с линейными функциями, как правило, линейной регрессией, характеризуя обучаемость этих функций с ICL (Li et al., 2023; Garg et al., 2022) и даже алгоритм обучения, используемый трансформатором (Akyürek et al., 2022; Dai et al., 2023; von Oswald et al., 2023). Вторая часть работы предполагает, что контекстное обучение находит существующие скрытые концепции (задачи), которые уже были изучены во время предварительного обучения (Xie et al., 2021; Wies et al., 2023). Наконец, Wei et al. (2023) предполагают, что размер модели может изменить механизмы, лежащие в основе ICL, от скрытого вывода до фактических алгоритмов обучения по мере увеличения размера. Наша работа, которая фокусируется на машинном переводе, вписывается в эту недавнюю цепочку работ, демонстрируя, что существует точка в слоях модели, где была расположена задача.

Во многих работах изучаются слои модели как естественная единица анализа для интерпретируемости (Hewitt & Liang, 2019; De Cao et al., 2020; Pasad et al., 2021; Durrani et al., 2022; BenShaul & Dekel, 2022; Sajjad et al., 2023). Мы выделяем некоторые работы, которые более тесно связаны с выполнением задач. Xie et al. (2022) изучают адаптивность по слоям с помощью коэффициента изменчивости скрытого состояния, в то время как Voita et al. (2019a) изучают эволюцию представлений в моделях трансформаторов с контролем МТ. Phang et al. (2021) изучают, когда слои модели можно пропустить, подавая промежуточные представления в конечный выходной слой предварительно обученной контролируемой модели. Наша работа дополняет этот массив работ, рассматривая перспективу того, когда и где слои отвечают за размещение задач в моделях контекстного обучения.

Контекстный машинный переводХотя модели GPT являются сильными обучающимися с небольшим количеством попыток, их данные предварительного обучения исторически доминируют на английском языке, что ограничивает их способность выполнять задачи перевода (Hendy et al., 2023). Lin et al. (2022) обнаружили, что явно многоязычный GPT значительно превосходит традиционные английские модели, такие как GPT-3, а Garcia et al. (2023) обнаружили, что такие модели могут даже конкурировать с контролируемыми моделями MT в некоторых условиях. Однако даже при явном многоязычном предварительном обучении было обнаружено, что контекстный MT очень чувствителен к примерам, используемым Liu et al. (2022), и их заказам Lu et al. (2022). В ответ на это недавняя работа фокусируется на том, как выбирать подсказки, которые вызывают наилучшую производительность MT ниже по течению (Agrawal et al., 2022; Sia & Duh, 2023). Однако дальнейшее улучшение перевода с помощью моделей GPT ограничено нашим пониманием того, как MT возникает в моделях GPT. Наша работа напрямую анализирует, когда в представлениях слоев модель GPT становится моделью перевода посредством контекстного обучения, и как это может информировать о решениях относительно настройки параметров и избыточности.

Эта статьядоступно на arxivпо лицензии CC BY 4.0 DEED.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE