
DeepSeek-Grm: Представление улучшенной техники рассуждения искусственного интеллекта
8 апреля 2025 г.Исследователи из компании AI Deepseek и Tsinghua University представили новую технику для улучшения «рассуждений» в моделях крупных языков (LLMS).
Возможности рассуждений стали важным эталоном в гонке для создания высокопроизводительных генеративных систем ИИ. Китай и США активно конкурируют за разработку самых мощных и практических моделей. Согласно отчету Стэнфордского университета в апреле, LLM в Китае быстро сокращают разрыв со своими коллегами США. В 2024 году Китай выпустил 15 известных моделей ИИ по сравнению с 40 в США, но он ведет в патентах и академических публикациях.
Какова новая техника DeepSeek?
Исследователи DeepSeek опубликовали статью под названием «Масштаб времени вывода для моделирования вознаграждений общего профиля», «Арксив» Корнелльского университета, архив научных работ. Обратите внимание, что документы, опубликованные на ARXIV, не обязательно рецензируются.
В статье исследователи подробно описали комбинацию двух методов обучения искусственного интеллекта: моделирование генеративного вознаграждения и самооценка критики.
«В этой работе мы исследуем, как улучшить моделирование вознаграждений (RM) с большим количеством выводов для вывода для общих запросов, то есть масштабируемости временного вывода обобщенных RM и, кроме того, как повысить эффективность масштабирования, выпускающего производительность, с помощью надлежащих методов обучения»,-написали исследователи.
См.: DDOS Attacks теперь ключевое оружие в геополитических конфликтах, Netscout предупреждает
Моделирование вознаграждений - это процесс обучения ИИ, чтобы более тесно соответствовать предпочтениям пользователей. Благодаря самосовершенствованной настройке критики модель генерирует свою собственную критику или «принципы» во время вывода, чтобы точно настроить свои ответы. Комбинированный подход продолжает усилия, чтобы LLMS быстрее предоставили более актуальные ответы.
«Эмпирически мы показываем, что SPCT значительно улучшает качество и масштабируемость GRM, опережая существующие методы и модели в различных RM-критериях без серьезных предубеждений, и может достичь лучшей производительности по сравнению с масштабированием времени обучения»,-написали исследователи.
Они назвали модели, обученные этим методом DeepSeek-Grm.
«Deepseek-Grm по-прежнему отвечает задачам в некоторых задачах, которые, по нашему мнению, могут быть рассмотрены будущими усилиями в системах вознаграждения общего пользования»,-написали исследователи.
Что дальше для DeepSeek?
DeepSeek вызвал значительный шум вокруг модели R1, которая конкурирует с ведущими моделями, ориентированными на рассуждения, таких как Openai O1. По слухам, вторая модель, DeepSeek-R2, для выхода в мае. Компания также запустила DeepSeek-V3-0324, обновленную модель рассуждений, выпущенную в конце марта.
Согласно статье, модели, построенные с новым методом GRM-SPCT, будут открыты, хотя дата выпуска не указана.
Оригинал