Архитектура сутры: расширенный контекст и смесь экспертов для многоязычных LLMS

Архитектура сутры: расширенный контекст и смесь экспертов для многоязычных LLMS

26 июня 2025 г.

Аннотация и 1 введение

2 Связанная работа

3 подход сутры

3.1 Что такое сутра?

3.2 Архитектура

3.3 Данные обучения

4 тренинги многоязычных токенизаторов

5 многоязычных MMLU

5.1 Массивное многозадачное понимание языка

5.2 Расширение MMLU на несколько языков и 5.3 последовательная производительность между языками

5.4 по сравнению с ведущими моделями для многоязычной производительности

6 Количественная оценка запросов в реальном времени

7 Обсуждение и заключение, а также ссылки

3.2 Архитектура

Архитектура нашей модели, называемая здесь как сутра, основана на основополагающих принципах архитектуры трансформатора, очерченных Vaswani et al. [2017]. Наша модель сохраняет усовершенствования, указанные Jiang et al. [2023], с критической адаптацией, которая облегчает расширенную длину плотного контекста до 32K токенов. Кроме того, мы использовали слои MOE, позволяя селективной активации экспертов и приводя к эффективности в вычислении и потреблении памяти, как показано на рисунке 2. Ключевые архитектурные параметры сутры инкапсулируются в таблице 2.

Учитывая вход x, выход, полученный экспертным модулем смеси, представляет собой сумму вклада каждой экспертной сети, модулируемой сетью стробирования. Формально, для n -экспертов {e0, e1, ..., en - 1} результирующий выход:

Figure 2: Expert Mixture Layer Configuration. Input vectors are routed to a subset of the available experts, specifically 2 out of 8, by a specialized router. The aggregate output of this layer is the sum of the individual outputs, each weighted accordingly. Each expert comprises a feedforward module similar to those found in conventional transformer models.

Table 2: The above table shows some selected model parameters for SUTRA.

где g (x) I представляет вывод функции стробирования, создавая n-мерный вектор, соответствующий активации эксперта I-TH, в то время как EI (x) определяет результаты I-TH Expert Network. Модель извлекает выгоду из разреженности, игнорируя неактивных экспертов, тем самым сохраняя вычислительные ресурсы. Существуют несколько механизмов построения стробирующей функции g (x) [Clark et al., 2022, Hazimeh et al., 2021, Zhou et al., 2022]; Тем не менее, наша реализация выбирает эффективный подход к выбору значений Top-K из линейной проекции, за которой следует операция Softmax [Shazeer et al., 2017]:

Авторы:

(1) Абхиджит Бендейл, две платформы (abhijit@two.ai);

(2) Майкл Сапенза, две платформы (michael@two.ai);

(3) Стивен Рипплингер, две платформы (steven@two.ai);

(4) Саймон Гиббс, две платформы (simon@two.ai);

(5) Jaewon Lee, две платформы (jaewon@two.ai);

(6) Пранав Мистри, две платформы (pranav@two.ai).


Эта статья естьДоступно на ArxivПод CC BY-NC-ND 4.0 Лицензия.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE