
Сутра: развязка концепции и языка для многоязычного превосходства LLM
26 июня 2025 г.Таблица ссылок
Аннотация и 1 введение
2 Связанная работа
3 подход сутры
3.1 Что такое сутра?
3.2 Архитектура
3.3 Данные обучения
4 тренинги многоязычных токенизаторов
5 многоязычных MMLU
5.1 Массивное многозадачное понимание языка
5.2 Расширение MMLU на несколько языков и 5.3 последовательная производительность между языками
5.4 по сравнению с ведущими моделями для многоязычной производительности
6 Количественная оценка запросов в реальном времени
7 Обсуждение и заключение, а также ссылки
АБСТРАКТНЫЙ
В этой статье мы вводим сутру, многоязычную архитектуру большой языковой модели, способную понимать, рассуждать и генерировать текст на более чем 50 языках. Дизайн Сутры уникально отделяет основное концептуальное понимание из обработки, специфичной для языка, которая способствует масштабируемому и эффективному многоязычному выравниванию и обучению. Используя смесь структуры экспертов как в языковой, так и в обработке концепции, Sutra демонстрирует как вычислительную эффективность, так и отзывчивость. Благодаря обширным оценкам, Sutra продемонстрирована, превзойдет существующие модели, такие как GPT-3.5, Llama2 на 20-30% по ведущим массовым многозадачным языковым пониманию (MMLU) для многоязычных задач. Модели Sutra также являются онлайн-LLM, которые могут использовать знания из Интернета для предоставления без галлюцинации, фактических и актуальных ответов, сохраняя при этом свои многоязычные возможности. Кроме того, мы исследуем более широкие последствия его архитектуры для будущего многоязычного ИИ, подчеркивая его потенциал для демократизации доступа к технологии искусственного интеллекта во всем мире и улучшения справедливости и полезности ИИ в регионах с преимущественно неанглийскими языками. Наши результаты показывают, что сутра не только заполняет ключевые пробелы в многоязычных возможностях модели, но и устанавливает новый эталон для эффективности работы и масштабируемости в приложениях ИИ.
1 Введение
Devlin et al., 2018]. Эти модели сыграли важную роль в различных приложениях, от разговорных агентов до сложных систем поддержки принятия решений. Тем не менее, подавляющее большинство этих моделей преимущественно обслуживают английский язык, что не только ограничивает лингвистическое разнообразие, но и в доступности и полезности в различных географических и культурных контекстах [Jia et al., 2019].
Решая эту проблему, были разработаны многоязычные LLMS, но эти модели часто страдают от значительных компромиссов между производительностью, эффективностью и масштабируемостью, особенно при расширении поддержки на более широком спектре языков [Conneau et al., 2020]. Наиболее распространенным подходом было обучение крупных универсальных моделей, способных понять несколько языков. Тем не менее, эти модели, такие как Bloom и Llama2, как правило, не соответствуют языкам, которые менее представлены в учебных данных из-за сложности балансировки нюансов, специфичных для языка [Smith et al., 2021, Zhang et al., 2020]. Развитие сутры было мотивировано неотъемлемыми ограничениями в существующих многоязычных LLM. С одной стороны, есть языковые LLM, такие как Hyperclova на корейском или Openhaathi на хинди. Масштабирование и управление такими моделями не только дорого, но и сложное из -за экспоненциальных данных и требований к обучению. Каждый раз, когда создается новая базовая модель, она потребует точной настройки для многих различных языков. С другой стороны, крупные традиционные LLM, такие как Bloom и Llama2, борются за многоязычные задачи, поскольку они должны сбалансировать обучение основным многоязычным возможностям и навыкам, что часто приводит к путанице между языками. Например, когда задайте GPT вопрос на корейском языке, можно заметить, насколько формальны и неформальные тона часто неуместны. Сутра была разработана для решения двух основных задач существующих многоязычных LLM: высокие затраты на вычислительные/масштабирующие модели, специфичные для языка, и трудности, которые крупные модели сталкиваются с многоязычными задачами (приводящие к языковой путанице).
В ответ на эти ограничения мы вводим сутру (санскрит для «потока»), преобразующего подхода в архитектуре многоязычных LLM. Сутра уникально отделяет процесс изучения концепции от изучения языка, как показано на рисунке 1. Сутра - это новая многоязычная архитектура с большой языком, которая обучается путем развязки концепции, обучающегося изучению языка. Эта архитектура позволяет основной модели сосредоточиться на универсальных концепциях языков диагностики, одновременно используя механизмы специализированных нейронных машин (NMT) для обработки, специфичной для языка, тем самым сохраняя лингвистические нюансы без ущерба для масштабируемости или производительности модели [Wu et al., 2019]. Sutra использует смесь стратегии экспертов (MOE), повышая эффективность модели, привлекая только соответствующих экспертов на основе лингвистической задачи [Shazeer et al., 2017]. Кроме того, модели сутры являются моделями, не содержащими интернет, и без галлюцинации, которые понимают запросы, просматривают Интернет и суммируют информацию, чтобы предоставить наиболее актуальные ответы, не теряя многоязычных возможностей. Сочетание многоязычных навыков, онлайн -связи и эффективности генерации языка, включенного моделями Sutra, обещает переопределить ландшафт многоязычного языкового моделирования.
В последующих разделах мы рассмотрим архитектуру сутры, методологию нашей обучения и представим всестороннюю оценку, которая демонстрирует ее превосходство по сравнению с современными многоязычными моделями по нескольким критериям, включая огромные задачи понимания языка многозадачности (MMLU) [Hendrycks et al., 2021]. Эффективно отделяя концепцию, обучающуюся на языковой обработке, Sutra устанавливает новую парадигму в разработке LLM, обещающих более широкую доступность и повышение производительности в разных лингвистических ландшафтах.
Документ организован следующим образом: Во -первых, мы обсуждаем связанные работы в контексте сутры. Затем мы опишем принятую методологию архитектуры и обучения. Затем мы обсудим данные, используемые для обучения, и предоставляем как оценку многоязычных, так и онлайн -каблетов Sutra. Наконец, мы обсуждаем, как построить более инклюзивные LLM в интересах более широкого сообщества.
Эта статья есть
Авторы:
(1) Абхиджит Бендейл, две платформы (abhijit@two.ai);
(2) Майкл Сапенза, две платформы (michael@two.ai);
(3) Стивен Рипплингер, две платформы (steven@two.ai);
(4) Саймон Гиббс, две платформы (simon@two.ai);
(5) Jaewon Lee, две платформы (jaewon@two.ai);
(6) Пранав Мистри, две платформы (pranav@two.ai).
Оригинал