Сутра: концепция отделения от изучения языка в многоязычных LLMS

Сутра: концепция отделения от изучения языка в многоязычных LLMS

26 июня 2025 г.

Аннотация и 1 введение

2 Связанная работа

3 подход сутры

3.1 Что такое сутра?

3.2 Архитектура

3.3 Данные обучения

4 тренинги многоязычных токенизаторов

5 многоязычных MMLU

5.1 Массивное многозадачное понимание языка

5.2 Расширение MMLU на несколько языков и 5.3 последовательная производительность между языками

5.4 по сравнению с ведущими моделями для многоязычной производительности

6 Количественная оценка запросов в реальном времени

7 Обсуждение и заключение, а также ссылки

3 подход сутры

3.1 Что такое сутра?

Sutra - это новая многоязычная архитектура модели с большой языком, которая обучается концепции развязки, обучающегося изучению языка. Вдохновленный тем, как люди учатся, сутра разместит основную концепцию, обучаясь изучению языка, что делает его масштабируемым и легче достигать большого количества языков. Люди сначала понимают мир через концепции, а затем постепенно изучают свой родной язык. После свободы на одном языке они изучают новые языки без необходимости заново изучать общие основные концепции. Точно так же центральным в нашем подходе является инновационная стратегия отделения концепции обучения от изучения языка. Это позволяет основным возможностям LLM работать в концептуальном или скрытом пространстве, в то время как тяжелая работа токенизации и перевода обрабатывается специализированными кодерами и декодерами, вдохновленными переводом нервной машины. Этот подход делает обучение LLMS более масштабируемым, в то же время облегчая достижение большего числа языков.

Наша методология обучения разворачивается на трех этапах: концептуальное обучение, изучение языка и выравнивание языка.

• Концепция обучения:Первоначально основная модель концепции проходит обучение для понимания концепций в небольшом наборе языков, устанавливая прочную основу для понимания основных концепций и лыжLLS.

• Изучение языка:Параллельно мы тренируем энкодеры и декодеры на основе специализированных нейронных машин (NMT), а также многоязычный токенизатор, специально предназначенный для освоения многоязычного перевода и обеспечения концепции концепции между языками.

• Выравнивание языка:Наконец, мы выполняем выравнивание языка, объединяя понимание концепции с лингвистическим мастерством.

На стадии вывода Sutra использует структурированный путь: вход обрабатывается через энкодер NMT, за которым следует модель концепции, и, наконец, через декодер NMT для получения вывода.

Авторы:

(1) Абхиджит Бендейл, две платформы (abhijit@two.ai);

(2) Майкл Сапенза, две платформы (michael@two.ai);

(3) Стивен Рипплингер, две платформы (steven@two.ai);

(4) Саймон Гиббс, две платформы (simon@two.ai);

(5) Jaewon Lee, две платформы (jaewon@two.ai);

(6) Пранав Мистри, две платформы (pranav@two.ai).


Эта статья естьДоступно на ArxivПод CC BY-NC-ND 4.0 Лицензия.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE