
Оценка знаний LLM: вопросы с множественным выбором в эталоне MMLU
26 июня 2025 г.Таблица ссылок
Аннотация и 1 введение
2 Связанная работа
3 подход сутры
3.1 Что такое сутра?
3.2 Архитектура
3.3 Данные обучения
4 тренинги многоязычных токенизаторов
5 многоязычных MMLU
5.1 Массивное многозадачное понимание языка
5.2 Расширение MMLU на несколько языков и 5.3 последовательная производительность между языками
5.4 по сравнению с ведущими моделями для многоязычной производительности
6 Количественная оценка запросов в реальном времени
7 Обсуждение и заключение, а также ссылки
5 многоязычных MMLU
5.1 Массивное многозадачное понимание языка
Мы оцениваем нашу модель по различным задачам NLU и NLG. Чтобы проверить возможности знаний и рассуждений модели, мы оцениваем машинную версию контрольных показателей, таких как MMLU [Hendrycks et al., 2021]. Массовое многозадачное языковое понимание (MMLU) - это всеобъемлющая и сложная оценка
Структура, предназначенная для проверки возможностей крупных языковых моделей (LLMS) в широком спектре задач. Он был создан с целью раздвижения границ того, что могут понять LLMS, и насколько хорошо они могут адаптироваться к различным областям знаний. Трингум охватывает 57 предметов по всему стеблу, гуманитарных наук, социальных наук и многого другого. Он варьируется в сложности от элементарного уровня до продвинутого профессионального уровня, и он проверяет как мировые знания, так и способность решать проблемы. Субъекты варьируются от традиционных областей, таких как математика и история, до более специализированных областей, таких как закон и этика. Гранулярность и широта субъектов делают эталон идеальным для определения слепых пятен модели. Это разнообразие гарантирует, что модели не только опытны в широком спектре тем, но также способны обобщать свое понимание для новых и невидимых областей. MMLU оценивает модели об их способности отвечать на вопросы с множественным выбором, требующие нюансированного понимания и применения рассуждений, которые в совокупности служат мерой глубины знаний LLM и его интерпретативных навыков.
Авторы:
(1) Абхиджит Бендейл, две платформы (abhijit@two.ai);
(2) Майкл Сапенза, две платформы (michael@two.ai);
(3) Стивен Рипплингер, две платформы (steven@two.ai);
(4) Саймон Гиббс, две платформы (simon@two.ai);
(5) Jaewon Lee, две платформы (jaewon@two.ai);
(6) Пранав Мистри, две платформы (pranav@two.ai).
Эта статья есть
Оригинал