
Сутра: концепция отделения от изучения языка в многоязычных LLMS
26 июня 2025 г.Таблица ссылок
Аннотация и 1 введение
2 Связанная работа
3 подход сутры
3.1 Что такое сутра?
3.2 Архитектура
3.3 Данные обучения
4 тренинги многоязычных токенизаторов
5 многоязычных MMLU
5.1 Массивное многозадачное понимание языка
5.2 Расширение MMLU на несколько языков и 5.3 последовательная производительность между языками
5.4 по сравнению с ведущими моделями для многоязычной производительности
6 Количественная оценка запросов в реальном времени
7 Обсуждение и заключение, а также ссылки
3 подход сутры
3.1 Что такое сутра?
Sutra - это новая многоязычная архитектура модели с большой языком, которая обучается концепции развязки, обучающегося изучению языка. Вдохновленный тем, как люди учатся, сутра разместит основную концепцию, обучаясь изучению языка, что делает его масштабируемым и легче достигать большого количества языков. Люди сначала понимают мир через концепции, а затем постепенно изучают свой родной язык. После свободы на одном языке они изучают новые языки без необходимости заново изучать общие основные концепции. Точно так же центральным в нашем подходе является инновационная стратегия отделения концепции обучения от изучения языка. Это позволяет основным возможностям LLM работать в концептуальном или скрытом пространстве, в то время как тяжелая работа токенизации и перевода обрабатывается специализированными кодерами и декодерами, вдохновленными переводом нервной машины. Этот подход делает обучение LLMS более масштабируемым, в то же время облегчая достижение большего числа языков.
Наша методология обучения разворачивается на трех этапах: концептуальное обучение, изучение языка и выравнивание языка.
• Концепция обучения:Первоначально основная модель концепции проходит обучение для понимания концепций в небольшом наборе языков, устанавливая прочную основу для понимания основных концепций и лыжLLS.
• Изучение языка:Параллельно мы тренируем энкодеры и декодеры на основе специализированных нейронных машин (NMT), а также многоязычный токенизатор, специально предназначенный для освоения многоязычного перевода и обеспечения концепции концепции между языками.
• Выравнивание языка:Наконец, мы выполняем выравнивание языка, объединяя понимание концепции с лингвистическим мастерством.
На стадии вывода Sutra использует структурированный путь: вход обрабатывается через энкодер NMT, за которым следует модель концепции, и, наконец, через декодер NMT для получения вывода.
Авторы:
(1) Абхиджит Бендейл, две платформы (abhijit@two.ai);
(2) Майкл Сапенза, две платформы (michael@two.ai);
(3) Стивен Рипплингер, две платформы (steven@two.ai);
(4) Саймон Гиббс, две платформы (simon@two.ai);
(5) Jaewon Lee, две платформы (jaewon@two.ai);
(6) Пранав Мистри, две платформы (pranav@two.ai).
Эта статья есть
Оригинал