machine-learning ml nlp

Моделирование языка — обзор наиболее распространенных задач перед обучением

14 января 2023 г.

Самоконтролируемое обучение (SSL) является основой предварительно обученных языковых моделей на основе преобразователя, и эта парадигма включает в себя решение задач предварительного обучения (PT), которые помогают в моделировании естественного языка. В этой статье собраны вместе все популярные задания перед тренировкой, чтобы мы могли их оценить с первого взгляда.

Функция потери в SSL

Функция потерь здесь представляет собой просто взвешенную сумму потерь отдельных задач предварительной подготовки, на которых обучается модель.

Взяв в качестве примера BERT, потеря будет равна взвешенной сумме MLM (моделирование маскированного языка) и NSP (прогнозирование следующего предложения)

За прошедшие годы появилось много предтренировочных задач, которые придумали для решения конкретных задач. Мы рассмотрим 10 интересных и популярных из них вместе с соответствующими функциями потерь:

Моделирование каузального языка (CLM)
Моделирование маскированного языка (MLM)
Заменено обнаружение токена (RTD)
Обнаружение перемешанного токена (STD)
Случайная замена токена (RTS)
Моделирование с перестановкой языков (SLM)
Моделирование языка перевода (TLM)
Моделирование на альтернативном языке (ALM)
Цель границы предложения (SBO)
Предсказание следующего предложения (NSP)

(Функции потерь для каждой задачи и содержание в значительной степени заимствованы из AMMUS: обзор трансформеров на основе Предварительно обученные модели в обработке естественного языка)

* Это просто однонаправленная языковая модель, которая предсказывает следующее слово с учетом контекста. *Использовалось как предтренировочное задание в ОФТ-1 * Убыток для CLM определяется как:

* Улучшение по сравнению с каузально-языковым моделированием (CLM), поскольку CLM учитывает только однонаправленный контекст при прогнозировании текста, тогда как MLM использует двунаправленный контекст. * Впервые оно использовалось в качестве предтренировочного задания в BERT

Вместо того, чтобы маскировать токены с помощью [MASK], RTD заменяет токен другим токеном (используя модель генератора) и обучает модель классифицировать, являются ли данные токены фактическими или замененными токенами (используя модель дискриминатора)
Устраняет два из следующих недостатков MLM:

Недостаток 1:

Токен [MASK] появляется во время предварительного обучения, но не во время тонкой настройки — это создает несоответствие между двумя сценариями. RTD преодолевает это, поскольку не использует маскировку

Недостаток 2:

В MLM обучающий сигнал дается только 15% токенов, поскольку потери вычисляются только с использованием этих замаскированных токенов, но в RTD сигнал дается всеми токенами, поскольку каждый из них классифицируется как « заменено» или «оригинал»

* RTD использовался в ELECTRA в качестве предтренировочного задания. Архитектура ELECTRA показана ниже:

Архитектура ЭЛЕКТРА

ELECTRA Architecture

Аналогично RTD, но токены здесь классифицируются как перемешанные или нет, а не замененные или нет (показано ниже)

Illustration of STD (from paper)

* Достигается такая же эффективность выборки, как и в RTD, по сравнению с MLM * Убыток определяется как:

* RTD использует генератор для искажения предложения, что требует значительных вычислительных ресурсов. * RTS обходит эту сложность, просто заменяя 15% токенов, используя токены из словаря, достигая такой же точности, как MLM, как показано здесь. *