
Сутра: последовательная многоязычная производительность MMLU на разных языках
27 июня 2025 г.Таблица ссылок
Аннотация и 1 введение
2 Связанная работа
3 подход сутры
3.1 Что такое сутра?
3.2 Архитектура
3.3 Данные обучения
4 тренинги многоязычных токенизаторов
5 многоязычных MMLU
5.1 Массивное многозадачное понимание языка
5.2 Расширение MMLU на несколько языков и 5.3 последовательная производительность между языками
5.4 по сравнению с ведущими моделями для многоязычной производительности
6 Количественная оценка запросов в реальном времени
7 Обсуждение и заключение, а также ссылки
5.2 Расширение MMLU на несколько языков
Чтобы оценить эффективность наших моделей в различных задачах и на нескольких языках, мы разработали многоязычный набор оценки, который расширяет объем оценки лингвистически. Мы использовали многоязычную структуру оценки, предложенную Lai et al. [2023] и üstün et al. [2024], с определенными различиями. Примечательно, что в то время как Okapi использует 25-выстрел, в нашей методологии используется 5-выстрел в соответствии с оригинальным эталоном Hendrycks et al. [2021]. Мы ожидаем, что оценка из 5 выстрелов, предлагающая меньше примеров, представляет более сложный эталон. Признавая существование более 200 основных языков во всем мире, наша оценка фокусируется на трех различных языковых группах: английские, корейские, японские, арабские и индийские языки. Хотя этот выбор не является исчерпывающим, он охватывает значительную часть лингвистического разнообразия, что позволяет тщательно анализировать многоязычные возможности моделей. Эти языки представляют собой существенную демографическую, учитывая более половины населения мира в качестве первичных или вторичных носителей. Кроме того, они являются ключевыми языками в глобальном бизнесе, гарантируя, что наша оценка имеет широкую актуальность.
5.3 Последовательная производительность между языками
Модель Sutra демонстрирует заметную последовательность в лингвистической производительности на различных языках, о чем свидетельствуют результаты эталона MMLU. Он демонстрирует минимальное отклонение производительности от результатов его английского языка на другие языки, такие как хинди, гуджарати и арабский язык, подчеркивая его надежные многоязычные возможности, критические для применений в глобальном масштабе.
Превосходная концепция и языковая моделирование лежит в основе способности модели Sutra поддерживать уровни производительности на разных языках, отличая ее от других ведущих моделей, включая GPT-4, GPT-3.5 и Llama2. Многие существующие модельные архитектуры (включая специально созданные модели с несколькими языками) испытывают ярко выраженное снижение производительности на неанглийских языках, часто регрессируя к базовой случайной производительности, как подробно описано в таблице 5. Обратите внимание, что производительность случайных шансов составляет 25% на эталоне MMLU. Напротив, Сутра последовательно достигает стабильных результатов между языками, выделяя ее, особенно на языках, которые реже представлены в языковых моделях, таких как хинди, гуджарати, тамильский и корейский. Следовательно, модель сутры не только превосходит в индивидуальном языке, но также способствует более универсальному, агрессию языковому, оживленному подходу к ИИ. Он служит надежным решением для международных предприятий, образовательных платформ и межкультурного общения, устанавливая новый эталон для LLMS в многоязычном взаимосвязанном мире.
Авторы:
(1) Абхиджит Бендейл, две платформы (abhijit@two.ai);
(2) Майкл Сапенза, две платформы (michael@two.ai);
(3) Стивен Рипплингер, две платформы (steven@two.ai);
(4) Саймон Гиббс, две платформы (simon@two.ai);
(5) Jaewon Lee, две платформы (jaewon@two.ai);
(6) Пранав Мистри, две платформы (pranav@two.ai).
Эта статья есть
Оригинал