Многоязычная учебная стратегия Sutra: Real & Synthetic Mix

Таблица ссылок

Аннотация и 1 введение

2 Связанная работа

3 подход сутры

3.1 Что такое сутра?

3.2 Архитектура

3.3 Данные обучения

4 тренинги многоязычных токенизаторов

5 многоязычных MMLU

5.1 Массивное многозадачное понимание языка

5.2 Расширение MMLU на несколько языков и 5.3 последовательная производительность между языками

5.4 по сравнению с ведущими моделями для многоязычной производительности

6 Количественная оценка запросов в реальном времени

7 Обсуждение и заключение, а также ссылки

3.3 Данные обучения

Ключ к нашей стратегии языковой подготовки заключается в использовании языковых общих черт на этапе изучения языка. Например, хинди имеет гораздо больше общих черт с точки зрения семантики, грамматики и культурного контекста с гуджарати или бенгальскими по сравнению с скандисными языками.

Ограниченные многоязычные возможности крупных языковых моделей (LLMS) связаны с неравномерным распределением данных, способствующим горстке хорошо ресурсовых языков. Многоязычные данные в машинном переводе являются специфичными для задачи и пропускают ключевые области обучения для LLM, такие как разговор, суммирование и подход к инструкции. Чтобы решить эту проблему, набор данных Sutra включает в себя более 100 миллионов разговоров в реальных и синтетически переведенных парах на различных языках, дополненных общедоступными наборами данных для комплексного обучения. Прошлые исследования продемонстрировали роль синтетических данных в содействии рассуждениям, генерации кода и обучению сложности задач в LLMS, а также в улучшении перекрестного переноса с помощью многоязычных синтетических данных [Lai et al., 2023, Whitehouse et al., 2023]. После этого понимания мы принимаем методическое использование обильных данных из таких языков, как английский, для облегчения концептуального обучения. На этапах изучения языка и выравнивания многоязычного обучения мы используем комбинацию реальных и синтетических данных для подкрепления

Figure 4: Conversation Data Topic Distribution. In the following plot we are are showing topic distribution of over 1M sampled conversations. Inspection of cluster centroids reveals that this is a rich and diverse data covering wide range of topics.

и расширить нашу учебную структуру. Иллюстрация и описание процесса соответствия и выравнивания показаны на рисунке 3.

На рисунке 4 мы показываем распределение тем более 1 м разговоров. Проверка кластерных центроидов показывает, что это богатые и разнообразные данные, охватывающие широкий спектр тем.

Специально построенные многоязычные токенизаторы эффективно представляют каждый язык. Они обучаются по межязычным данным и точно настроены с базовой моделью, устанавливая новый эталон в многоязычном моделировании языка. Одним из наиболее важных аспектов получения хорошей производительности в разговорных LLMS является высококачественная инструкционная настройка (IFT). Большинство наборов данных IFT на английском языке. Мы используем перевод нейтральной машины (NMT) для перевода

Инструкции, входы и выходы из разных наборов данных, чтобы обеспечить сбалансированное представление по задачам, на нескольких индийских и неанглийских языках. В целом, мы готовим более 100 метров учебных образцов из таких языков, как английский, хинди, тамильский, корейский и т. Д. С широкими наборами данных, такими как наш внутренний набор данных сутры, а также с открытым исходным кодом, OpenAssistant и Wikihow. Переведенные примеры отфильтрованы, чтобы сохранить высококачественные примеры. Обратите внимание, что наши внутренние данные включают в себя долгосрочные и многоразмерные разговорные данные, которые помогают настроить их на лучшие беседы и взаимодействия с человеком и аи. Сравнение и подробное описание набора данных показано в таблице 3.

Авторы:

(1) Абхиджит Бендейл, две платформы (abhijit@two.ai);

(2) Майкл Сапенза, две платформы (michael@two.ai);

(3) Стивен Рипплингер, две платформы (steven@two.ai);

(4) Саймон Гиббс, две платформы (simon@two.ai);

(5) Jaewon Lee, две платформы (jaewon@two.ai);

(6) Пранав Мистри, две платформы (pranav@two.ai).

Эта статья естьДоступно на ArxivПод CC BY-NC-ND 4.0 Лицензия.