Оценка знаний LLM: вопросы с множественным выбором в эталоне MMLU

Оценка знаний LLM: вопросы с множественным выбором в эталоне MMLU

26 июня 2025 г.

Аннотация и 1 введение

2 Связанная работа

3 подход сутры

3.1 Что такое сутра?

3.2 Архитектура

3.3 Данные обучения

4 тренинги многоязычных токенизаторов

5 многоязычных MMLU

5.1 Массивное многозадачное понимание языка

5.2 Расширение MMLU на несколько языков и 5.3 последовательная производительность между языками

5.4 по сравнению с ведущими моделями для многоязычной производительности

6 Количественная оценка запросов в реальном времени

7 Обсуждение и заключение, а также ссылки

5 многоязычных MMLU

5.1 Массивное многозадачное понимание языка

Мы оцениваем нашу модель по различным задачам NLU и NLG. Чтобы проверить возможности знаний и рассуждений модели, мы оцениваем машинную версию контрольных показателей, таких как MMLU [Hendrycks et al., 2021]. Массовое многозадачное языковое понимание (MMLU) - это всеобъемлющая и сложная оценка

Table 5: The above table shows comparison with recent purpose built multilingual language models such as those proposed by Üstün et al. [2024], Lai et al. [2023]. SUTRA provides strong multilingual performance compared to many leading purpose built multilingual language models by significant margin.

Структура, предназначенная для проверки возможностей крупных языковых моделей (LLMS) в широком спектре задач. Он был создан с целью раздвижения границ того, что могут понять LLMS, и насколько хорошо они могут адаптироваться к различным областям знаний. Трингум охватывает 57 предметов по всему стеблу, гуманитарных наук, социальных наук и многого другого. Он варьируется в сложности от элементарного уровня до продвинутого профессионального уровня, и он проверяет как мировые знания, так и способность решать проблемы. Субъекты варьируются от традиционных областей, таких как математика и история, до более специализированных областей, таких как закон и этика. Гранулярность и широта субъектов делают эталон идеальным для определения слепых пятен модели. Это разнообразие гарантирует, что модели не только опытны в широком спектре тем, но также способны обобщать свое понимание для новых и невидимых областей. MMLU оценивает модели об их способности отвечать на вопросы с множественным выбором, требующие нюансированного понимания и применения рассуждений, которые в совокупности служат мерой глубины знаний LLM и его интерпретативных навыков.

Авторы:

(1) Абхиджит Бендейл, две платформы (abhijit@two.ai);

(2) Майкл Сапенза, две платформы (michael@two.ai);

(3) Стивен Рипплингер, две платформы (steven@two.ai);

(4) Саймон Гиббс, две платформы (simon@two.ai);

(5) Jaewon Lee, две платформы (jaewon@two.ai);

(6) Пранав Мистри, две платформы (pranav@two.ai).


Эта статья естьДоступно на ArxivПод CC BY-NC-ND 4.0 Лицензия.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE