Grok 4 утверждает, что «докторская наука», но по цене

Grok 4 утверждает, что «докторская наука», но по цене

15 июля 2025 г.

Привет, энтузиасты ИИ!

Добро пожаловать в двадцать седьмое издание"На этой неделе в области искусственного интеллекта"!

На этой неделе XAI Elon Musk выпустила Grok 4 и Grok 4 Heavy, Google Research удивило нас T5Gemma, DeepMind Genai процессорами с открытым исходным кодом, Mistral AI выпустил две новые модели Devstral Coding и обнимающееся лицо Smollm3.

Как всегда, мы завершим вещи с помощью инструментов и релизов, которые заслуживают вашего внимания.


Grok 4 разрушает любую другую модель рассуждения

Последние модели XaiПриехать с претензиями на интеллект «докторскую степень» по каждой дисциплине. Grok4 обеспечивает глубокие рассуждения с одной агентом, в то время как Grok4heavy включает в себя группу параллельных агентов, каждый из которых сравнивает примечания, чтобы справиться с самыми сложными критериями. Оба отправляют сегодня с уровнями Supergrok Enterprise и новым планом подписки на 300 долларов в месяц.

Однонагенные и многоагентные дизайны

  • Grok4 (одиночный агент):Сфокусированные, аспирантуру на уровне невидимых проблем, идеальные оценки SAT, почти идеальные показатели GRE в разных гуманитарных науках, STEM, языках, физике и инженерии.
  • Grok4Heavy (мульти агент):Создает несколько агентов рассуждений во время тестирования, масштабируя вычислитель на порядок величины. Агенты «сравнивают заметки», чтобы повысить точность в сложных задачах.

Сокрушив все тесты

  • На тесте Arc-Agi-2,Он записал впечатляющую точность 15,9%, что более чем вдвое превышает балл следующей лучшей модели, став первым, кто преодолел 10% барьер
  • На «Последнем экзамене человечества» (HLE),Ему удалось решить 25% вопросов, ориентированных на экспертов, без использования внешних инструментов, в то время как Grok 4 Heavy пошел еще дальше, превысив 50% точность на элементы HLE только для текста.
  • Индекс интеллекта искусственного анализа:Grok 4 Heavy набрал ведущие 73, опередив основные модели, такие как O3 O3 и Google Gemini 2.5 Pro (оба в 70), Claude 4 Opus от Anpropic (64) и Deepseek R1 0528 (68).

Обучение и вычислительная масштаба

  • Экспоненциальный вычислительный рост:100 × больше тренировочных вычислений со времен Grok2, используя 200 -километровые графические процессоры Colossus для RL.
  • Первая парадигма RL:Массовые инвестиции в подкрепление, обучение, «RL - это новая предварительная подготовка», с подтверждаемыми вознаграждениями для рассуждений первых закупорителей.
  • Узкое место впереди:Поскольку масштаб Grok, поиск проблем RL высокого качества становится важным для поддержания обучающих сигналов.

От симуляций до реальности

  • Интеграция робототехники:Видение комбинирования Grok с Optimus для формулирования и проверки реальных гипотез, ракеты, автомобилей и лекарств.
  • Доменные тесты:
    • Симуляция торговца -бенч: удвоенный чистый капитал против конкурентов в области инвентаризации и ценовых задач.
    • Биомедицинские исследования: мгновенная генерация гипотез в журналах экспериментов; Ранние анализы CRISPR и груди -x -Ray.
    • Финансы: проглатывание живых данных для поддержки принятия решений в реальном времени.

Голосовой режим с естественными голосами

  • Пять голосов, более слабая задержка:Включает в себя «SAL» (глубокий, стиль трейлера) и «Ева» (богатый британский эмоциональный тон).
  • Живые демонстрации:Оперные поэтические концерты и интерактивные игры по вызову и ответу, 10 × рост использования голосового мода в течение восьми недель.

Предстоящие инновации

  • Game Dev Assistant:Сольные дизайнеры могут создавать титулы FPS в часах, активах, текстурах и дизайне, созданными в конечном итоге, с планами на будущее для оценки игрового процесса.
  • Мультимодальные обновления:Следующая модель фонда, чтобы закрыть «пробелы в стекле» в видении, видео и понимании аудио, тренировки завершаются в этом месяце.
  • Модели генерации видео и кодирования:Один лакх+ графические процессоры выстроились в линию для бесконечно -прокрутки видео; Модель быстрого и смарт -кодирования падает за несколько недель.

Самый мощный Encoder -Decoder LLM Google

T5GemmaСемейство энкодера-декодера больших моделей Langauge, построенных на проверенных сильных сторонах как T5, так и моделей T5Gemma, а также Decoder-Models, адаптируя, адаптируя предварительные веса геммы в полностью сложную архитектуру. Этот подход сочетает в себе богатые «понимание» представления кодера с генеративным мастерством декодера, без тренировок с нуля.

Ключевые инновации и контекст

  • Почему кодер - декодер имеет значение:Модели Encoder-Decoder (например, Classic T5) давно преуспели в задачах, требующих глубокого понимания, суммирования, перевода, добывающей QA, однако современный фокус искажился в направлении только декодера. T5Gemma возвращает Encoder -Decoder на первый план, показывая, что вы можете получить лучшее из обоих миров.
  • Техника адаптации модели:Вместо того, чтобы предварительно заново, T5Gemma инициализирует как кодер, так и декодер с предварительной контрольной точки Gemma 2. Легкая фаза адаптации (стиль UL2 или PrefixLM) затем тонко - объединяет комбинированный стек, резко сокращая стоимость обучения и время.
  • Несбалансированная гибкость архитектуры:Нужно тяжелое понимание, но легкое поколение? Сочетайте энкодер 9B с декодером 2B. Или матч размера для максимального качества. Это «микс и совпадение» позволяет адаптировать вычислительные требования к требованиям задач, идеально подходит для чувствительного к задержке вывода или развертывания, ограниченных бюджетом.

Ведущий качественную границу

  • SuperGlue & Beyond:В сравнительных показателях, от классификации до здравого смысла, контрольные точки T5Gemma лежат на границе Pareto или выше при построении точности по сравнению с выводами.
  • Задержка в реальном мире выигрывает:
    • Математическая рассуждения (GSM8K):Вариант 9B -9B превосходит GEMMA29B на аналогичных скоростях токенора.
    • Бережкая конфигурация:Вариант 9b -2b превышает точность 2B -2B с точностью при сопоставлении низкой задержки малой модели.

Глубокое погружение: предварительное обучение против настройки инструкций

  • Основополагающие выгоды:В необработанной, предварительной форме, баллы T5Gemma 9B -9B +9 баллов на GSM8K и +4 на падение по сравнению с GEMMA29B, свидетельствуют о том, что более богатый контекст энкодера внедряет улучшения рассуждения.
  • RLHF и настройка инструкций:Пост -ходьбы, T5Gemma 2b -2b, он прыгает почти на 12 точек и рост от 58,0% до 70,7% на GSM8K по сравнению с его аналогом GEMMA2. Магистраль Encoder-Decoder не только изучает более надежные инструкции, но и усиливает преимущества RLHF для более безопасных, более полезных результатов.

Практические варианты использования и выпуск сообщества

  • Суммирование в масштабе:Глубокий энкодер плюс ловкий декодер делает T5Gemma идеальным для дайджестов для документов, генерации многостраничных отчетов и юридических/медицинских резюме, где понимание ввода имеет решающее значение.
  • Мультимодальные расширения:Хотя T5Gemma в настоящее время обрабатывает текст, его дизайн энкодера-декодера открывает дверь для будущих адаптаций на языке зрения с помощью межмодальных префиксов.
  • Открытые контрольно -пропускные пункты:Все модели T5Gemma, подготовленные с инструкциями, из вариантов 2B/9B на основе малых до XL и GEMMA, выпускаются по разрешающей лицензии. Участники сообщества могут точно определить данные об области, экспериментировать с несбалансированными парами или расширить адаптацию к новым методам.

Новая библиотека Python с открытым исходным кодом Google DeepMind безумна

Genai процессорыПриносит структуру и простоту в мультимодальные трубопроводы в реальном времени. Обратите внимание на все данные как асинхровые потоки стандартизированных «ProcessOrparts», вы можете составлять, оптимизировать и расширять сложные рабочие процессы с несколькими линиями Python.

Потоковая абстракция

  • Интерфейс процессора:Каждый шаг, от захвата звука до моделирования вывода до рендеринга вывода, представляет собой процессор, принимая и дает поток процессов (текст, аудио куски, рамки изображений, метаданные).
  • Двунаправленная потоковая передача:Двухсторонние потоки позволяют вам обрабатывать вход и вывод в унифицированном потоке, идеально подходящие для живых агентов и интерактивных приложений.

Автоматическая параллелизм и низкая задержка

  • Исполнение на графике:Назнаколенные зависимости определяют безопасный параллелизм: независимые филиалы работают одновременно, чтобы минимизировать время до первого токена (TTFT).
  • Гарантии заказа:Несмотря на одновременный вычисление, выходной порядок соответствует порядок ввода, сохранение разговора и целостность потока.

Реальные примеры живого агента

  • Агент API Live Gemini: Combine videoin () + pyaudioin () → liveprocessor () → pyaudioout (), чтобы построить агент камеры + микрофон в течение десяти строк.
  • Текстовый разговорной агент:Ввод микрофона цепного микрофона → Речее - To -Text → Genaimodel → Text -To -Speech → воспроизведение звука для полностью двунаправленного голосового бота.

Основные принципы дизайна

  • Modular & Testable:Инкапсулируйте каждую единицу работы в класс процессора для легкого повторного использования и модульного тестирования.
  • Асинк - первое:Используйте асинсио Python для выполнения задач ввода/O -O -On -By -By -Bound и CPU без сложности.
  • Интеграция API Gemini:Встроенные процессоры для поворотных и живых взаимодействий упрощают использование API Gemini Live.
  • Расширяется:Унаследовать или украсить базовые классы для участия в пользовательской логике, API третьих сторон или операциях, специфичных для домена.
  • Единый мультимодальный:Metadata Processorpart несет информацию типа, поэтому трубопроводы плавно обрабатывают текст, аудио, изображения и JSON.

Объятие лиц крошечное, но могущественное многоязычное рассуждение

Новый Smollm3's HuggingfaceВпадает в штат - многоязычные рассуждения более 128 тысяч токенов в бережливую модель 3B -параметров, идеально подходящая для развертываемых затрат и вычислительных развертываний без жертвоприношений.

Давний контекст и многоязычное мастерство

  • Последовательности токенов 128K:Модифицированное внимание (линейно + сгруппирован) позволяет SMOLLM3 обрабатывать ультра -многоуровневые документы, журналы или транскрипты с минимальными накладными расходами на память.
  • Поддержка шестигонов:Обученные на английском, французском, испанском, немецком, итальянском и португальском языках, сильные результаты Xquad и MGSM демонстрируют межпространственное обобщение.

Рассуждение и инструменты с двумя модами

  • База против инструкта:
    • Smollm3‑3b -baseДля широкого многоязычного поколения и поиска.
    • Smollm3‑3b -instructОснащенные через TRLX для чата, инструментальных рабочих процессов и выходов, основанных на схеме.
  • Использование инструмента и структурированные выходы:Бесплано следует схемам API для детерминированных инструментов и сложных многоэтапных рассуждений.

Компактный размер, большое влияние

  • Параметры 3b:Совместит или превосходит больше моделей 7b+ по ключевым задачам, наилучшее соотношение производительности ипараметрии.
  • Экономичное развертывание:Запускается на ограниченных аппаратных и краевых устройствах, снижая затраты на вывод, не отказываясь от точности.

Строгая тренировка и архитектура

  • 11t Token Corpus:Высококачественные веб -сайты, кодовые, академические и многоязычные данные.
  • Распределенное вспышка внимания v2:Оптимизированное обучение GPU -кластера для продолжительной пропускной способности.
  • Токенизатор предложения:128K -Token Ocabulary, разделенный на языках для униформы.

Производительность

  • Xquad & mgsm:Конкурентоспособность на шести языках; С нулевой маткой MGSM превосходит около 7b моделей.
  • Toolqa и Multihopqa:Сильные многоэтапные рассуждения и контекст заземления.
  • ARC & MMLU:Высокая точность знаний и профессиональные знания, соперничающие с более крупными архитектурами.

Идеальные варианты использования

  • Многоязычные чат -боты и помощь:Низкая точная языковая поддержка в различных пользовательских базах.
  • Давно форма Rag Systems:Суммизация документов, юридическая или медицинская карта с расширенным контекстом.
  • Агенты с инструментами:Схема -сочетание оркестровки API для автономных рабочих процессов.
  • Edge & Private Deployments:Запускается на оборудованном ресурсах оборудование с конфиденциальностью данных.

Новейшие модели кодирования Mistral AI

Мистралай, в сотрудничестве с Allhandsai, упалдва основных обновленияВ его ориентированной на код линейку:Devstral маленький 1.1(Полностью открытый источник при Apache2.0) иDevstral Medium 2507(API-First, готово предприятия). Обе модели предназначены для того, чтобы преуспеть в рабочих процессах автономных агентов, показывающих превосходное обобщение, схему схемы и лидирующие показатели в задачах разработки программного обеспечения.

Devstral small1.1: агент кода с открытым исходным кодом

  • Параметры 24b:Тот же легкий след, как и раньше, теперь сдерживается для более широкого обобщения.
  • Swe -Bench проверил:Достигает 53,6%, устанавливая SOTA среди открытых моделей без масштабирования тестирования.
  • Агентская универсальность:Бесшовные с наборами инструментов с открытыми руками; Поддерживает функцию Mistral - наказывать и XML -форматы для различных каркасов.

Devstral Medium: API -First, Enterprise готовый

  • Высокая пропускная способность:Оценки 61,6% по проверке SWE -Bench, превосходящие Gemini2,5PRO и GPT -4.1 за счет стоимости.
  • Гибкое развертывание:Доступно через публичный API или самостоятельно поставлен на частную инфраструктуру.
  • Пользовательский тонкий подход:Клиенты предприятия могут адаптировать к доменным специфическим базам и рабочим процессам.

Цены и доступность

  • Devstral -Small -2507:$ 0,10 за 1K входные токены; 0,30 долл. США за токены на 1 тысяч, соответствуют тарифам Mistral Small3.1.
  • Devstral -Medium -2507:0,40 долл. США за 1K вход; 2,00 долл. США за выход 1K, выравнивается с ценой Mistral Medium3.
  • Лицензирование:Small1.1 - Apache2.0 Open -Source; Средний поступает через API кода Mistral и конечные точки MineTuning.

Инструменты и релизы, о которых вы должны знать

Прохождениеявляется инструментом CLI с открытой статьей, который поднимает ваш терминал в полнофункциональную среду парного процесса ИИ, предлагая бесшовную интеграцию с локальными репозиториями GIT для использования без труда контроль версий и помощи кода контекста. Он ускоряет рабочие процессы разработки, разумно интерпретируя историю вашего проекта, предлагая коммиты, рефакторирование и тестовые примеры, при этом твердо удерживая вас в командной строке. С помощью Aider вы получаете выгоду от бессмысленного сотрудничества между человеком и машиной, обеспечивая более быстрые итерации и более качественный код, даже не покидая терминал.

Синкэто облачная платформа для анализа безопасности, предназначенная для защиты вашей кодовой базы путем автоматического сканирования на предмет уязвимостей и вопросов соответствия лицензии с открытой и откровенной. Он постоянно контролирует зависимости, флаги рискованными версиями и обеспечивает действенное руководство по восстановлению, предоставляя командам возможности поддерживать безопасную и проверенную цепочку поставок программного обеспечения. Внедряя безопасность в ваши трубопроводы CI/CD и предлагая подробные отчеты, Synk гарантирует, что безопасность и соответствие остаются главными приоритетами на протяжении всего жизненного цикла разработки.

На таблицеявляется AI -мощным механизмом завершения кода, который от надзора отчитывает вашу IDE с предложениями контекста, взятые из смеси открытых и проприетарных данных обучения. Он предсказывает целые строки или кодовые блоки, адаптируется к вашим шаблонам кодирования и поддерживает широкий спектр языков и структур для повышения точности и разнообразия в вашем рабочем процессе. Предлагая интеллектуальные завершения, поиск документации и настраиваемые модели, Tabnine помогает разработчикам писать более чистый, более эффективный код с меньшим количеством нажатий клавиш и минимальным нарушением.


И это завершает этот вопрос "На этой неделе в искусственном интеллекте."

Спасибо за настройку! Обязательно поделитесь этим информационным бюллетенем со своими коллегами -энтузиастами ИИ и

До следующего раза, счастливого здания!


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE