Моделирование языка — обзор наиболее распространенных задач перед обучением

Моделирование языка — обзор наиболее распространенных задач перед обучением

14 января 2023 г.

Самоконтролируемое обучение (SSL) является основой предварительно обученных языковых моделей на основе преобразователя, и эта парадигма включает в себя решение задач предварительного обучения (PT), которые помогают в моделировании естественного языка. В этой статье собраны вместе все популярные задания перед тренировкой, чтобы мы могли их оценить с первого взгляда.

Функция потери в SSL

Функция потерь здесь представляет собой просто взвешенную сумму потерь отдельных задач предварительной подготовки, на которых обучается модель.

Взяв в качестве примера BERT, потеря будет равна взвешенной сумме MLM (моделирование маскированного языка) и NSP (прогнозирование следующего предложения)

За прошедшие годы появилось много предтренировочных задач, которые придумали для решения конкретных задач. Мы рассмотрим 10 интересных и популярных из них вместе с соответствующими функциями потерь:

  1. Моделирование каузального языка (CLM)
  2. Моделирование маскированного языка (MLM)
  3. Заменено обнаружение токена (RTD)
  4. Обнаружение перемешанного токена (STD)
  5. Случайная замена токена (RTS)
  6. Моделирование с перестановкой языков (SLM)
  7. Моделирование языка перевода (TLM)
  8. Моделирование на альтернативном языке (ALM)
  9. Цель границы предложения (SBO)
  10. Предсказание следующего предложения (NSP)

(Функции потерь для каждой задачи и содержание в значительной степени заимствованы из AMMUS: обзор трансформеров на основе Предварительно обученные модели в обработке естественного языка)

* Это просто однонаправленная языковая модель, которая предсказывает следующее слово с учетом контекста. *Использовалось как предтренировочное задание в ОФТ-1 * Убыток для CLM определяется как:

* Улучшение по сравнению с каузально-языковым моделированием (CLM), поскольку CLM учитывает только однонаправленный контекст при прогнозировании текста, тогда как MLM использует двунаправленный контекст. * Впервые оно использовалось в качестве предтренировочного задания в BERT

  • Вместо того, чтобы маскировать токены с помощью [MASK], RTD заменяет токен другим токеном (используя модель генератора) и обучает модель классифицировать, являются ли данные токены фактическими или замененными токенами (используя модель дискриминатора)
  • Устраняет два из следующих недостатков MLM:

Недостаток 1:

Токен [MASK] появляется во время предварительного обучения, но не во время тонкой настройки — это создает несоответствие между двумя сценариями. RTD преодолевает это, поскольку не использует маскировку

Недостаток 2:

В MLM обучающий сигнал дается только 15% токенов, поскольку потери вычисляются только с использованием этих замаскированных токенов, но в RTD сигнал дается всеми токенами, поскольку каждый из них классифицируется как « заменено» или «оригинал»

* RTD использовался в ELECTRA в качестве предтренировочного задания. Архитектура ELECTRA показана ниже:

Архитектура ЭЛЕКТРА

ELECTRA Architecture

  • Аналогично RTD, но токены здесь классифицируются как перемешанные или нет, а не замененные или нет (показано ниже)

Illustration of STD (from paper)

* Достигается такая же эффективность выборки, как и в RTD, по сравнению с MLM * Убыток определяется как:

* RTD использует генератор для искажения предложения, что требует значительных вычислительных ресурсов. * RTS обходит эту сложность, просто заменяя 15% токенов, используя токены из словаря, достигая такой же точности, как MLM, как показано здесь. *

Illustration of TLM (from paper)

* Потеря TLM аналогична потере MLM:

Illustration of ALM: Step1: Tokens from x are replaced by tokens from y; Step2: Obtained sample is then masked similarly to MLM (image from paper)

При переключении кода некоторые фразы x заменяются на y, и полученная таким образом выборка используется для обучения модели.

* Включает маскирование непрерывного диапазона токенов в предложении, а затем использование модели для прогнозирования замаскированных токенов на основе выходных представлений граничных токенов

Step1: tokens x5 till x8 are masked; Step2: Output representations of boundary tokens (x4 and x9) are used to predict tokens from x5 till x9 (image from paper)

* Использовался в качестве предтренировочного задания в SpanBERT * Убыток определяется как:

Есть много других интересных задач, которые обобщены в AMMUS <эм>!! Спасибо авторам, и, пожалуйста, прочтите, если найдете это интересным)


Также опубликовано здесь< /a>

Следуйте за мной на Medium, чтобы получать больше сообщений об ML/DL/NLP


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE