
Grok 4 утверждает, что «докторская наука», но по цене
15 июля 2025 г.Привет, энтузиасты ИИ!
Добро пожаловать в двадцать седьмое издание"На этой неделе в области искусственного интеллекта"!
На этой неделе XAI Elon Musk выпустила Grok 4 и Grok 4 Heavy, Google Research удивило нас T5Gemma, DeepMind Genai процессорами с открытым исходным кодом, Mistral AI выпустил две новые модели Devstral Coding и обнимающееся лицо Smollm3.
Как всегда, мы завершим вещи с помощью инструментов и релизов, которые заслуживают вашего внимания.
Grok 4 разрушает любую другую модель рассуждения
Последние модели XaiПриехать с претензиями на интеллект «докторскую степень» по каждой дисциплине. Grok4 обеспечивает глубокие рассуждения с одной агентом, в то время как Grok4heavy включает в себя группу параллельных агентов, каждый из которых сравнивает примечания, чтобы справиться с самыми сложными критериями. Оба отправляют сегодня с уровнями Supergrok Enterprise и новым планом подписки на 300 долларов в месяц.
Однонагенные и многоагентные дизайны
- Grok4 (одиночный агент):Сфокусированные, аспирантуру на уровне невидимых проблем, идеальные оценки SAT, почти идеальные показатели GRE в разных гуманитарных науках, STEM, языках, физике и инженерии.
- Grok4Heavy (мульти агент):Создает несколько агентов рассуждений во время тестирования, масштабируя вычислитель на порядок величины. Агенты «сравнивают заметки», чтобы повысить точность в сложных задачах.
Сокрушив все тесты
- На тесте Arc-Agi-2,Он записал впечатляющую точность 15,9%, что более чем вдвое превышает балл следующей лучшей модели, став первым, кто преодолел 10% барьер
- На «Последнем экзамене человечества» (HLE),Ему удалось решить 25% вопросов, ориентированных на экспертов, без использования внешних инструментов, в то время как Grok 4 Heavy пошел еще дальше, превысив 50% точность на элементы HLE только для текста.
- Индекс интеллекта искусственного анализа:Grok 4 Heavy набрал ведущие 73, опередив основные модели, такие как O3 O3 и Google Gemini 2.5 Pro (оба в 70), Claude 4 Opus от Anpropic (64) и Deepseek R1 0528 (68).
Обучение и вычислительная масштаба
- Экспоненциальный вычислительный рост:100 × больше тренировочных вычислений со времен Grok2, используя 200 -километровые графические процессоры Colossus для RL.
- Первая парадигма RL:Массовые инвестиции в подкрепление, обучение, «RL - это новая предварительная подготовка», с подтверждаемыми вознаграждениями для рассуждений первых закупорителей.
- Узкое место впереди:Поскольку масштаб Grok, поиск проблем RL высокого качества становится важным для поддержания обучающих сигналов.
От симуляций до реальности
- Интеграция робототехники:Видение комбинирования Grok с Optimus для формулирования и проверки реальных гипотез, ракеты, автомобилей и лекарств.
- Доменные тесты:
- Симуляция торговца -бенч: удвоенный чистый капитал против конкурентов в области инвентаризации и ценовых задач.
- Биомедицинские исследования: мгновенная генерация гипотез в журналах экспериментов; Ранние анализы CRISPR и груди -x -Ray.
- Финансы: проглатывание живых данных для поддержки принятия решений в реальном времени.
Голосовой режим с естественными голосами
- Пять голосов, более слабая задержка:Включает в себя «SAL» (глубокий, стиль трейлера) и «Ева» (богатый британский эмоциональный тон).
- Живые демонстрации:Оперные поэтические концерты и интерактивные игры по вызову и ответу, 10 × рост использования голосового мода в течение восьми недель.
Предстоящие инновации
- Game Dev Assistant:Сольные дизайнеры могут создавать титулы FPS в часах, активах, текстурах и дизайне, созданными в конечном итоге, с планами на будущее для оценки игрового процесса.
- Мультимодальные обновления:Следующая модель фонда, чтобы закрыть «пробелы в стекле» в видении, видео и понимании аудио, тренировки завершаются в этом месяце.
- Модели генерации видео и кодирования:Один лакх+ графические процессоры выстроились в линию для бесконечно -прокрутки видео; Модель быстрого и смарт -кодирования падает за несколько недель.
Самый мощный Encoder -Decoder LLM Google
T5GemmaСемейство энкодера-декодера больших моделей Langauge, построенных на проверенных сильных сторонах как T5, так и моделей T5Gemma, а также Decoder-Models, адаптируя, адаптируя предварительные веса геммы в полностью сложную архитектуру. Этот подход сочетает в себе богатые «понимание» представления кодера с генеративным мастерством декодера, без тренировок с нуля.
Ключевые инновации и контекст
- Почему кодер - декодер имеет значение:Модели Encoder-Decoder (например, Classic T5) давно преуспели в задачах, требующих глубокого понимания, суммирования, перевода, добывающей QA, однако современный фокус искажился в направлении только декодера. T5Gemma возвращает Encoder -Decoder на первый план, показывая, что вы можете получить лучшее из обоих миров.
- Техника адаптации модели:Вместо того, чтобы предварительно заново, T5Gemma инициализирует как кодер, так и декодер с предварительной контрольной точки Gemma 2. Легкая фаза адаптации (стиль UL2 или PrefixLM) затем тонко - объединяет комбинированный стек, резко сокращая стоимость обучения и время.
- Несбалансированная гибкость архитектуры:Нужно тяжелое понимание, но легкое поколение? Сочетайте энкодер 9B с декодером 2B. Или матч размера для максимального качества. Это «микс и совпадение» позволяет адаптировать вычислительные требования к требованиям задач, идеально подходит для чувствительного к задержке вывода или развертывания, ограниченных бюджетом.
Ведущий качественную границу
- SuperGlue & Beyond:В сравнительных показателях, от классификации до здравого смысла, контрольные точки T5Gemma лежат на границе Pareto или выше при построении точности по сравнению с выводами.
- Задержка в реальном мире выигрывает:
- Математическая рассуждения (GSM8K):Вариант 9B -9B превосходит GEMMA29B на аналогичных скоростях токенора.
- Бережкая конфигурация:Вариант 9b -2b превышает точность 2B -2B с точностью при сопоставлении низкой задержки малой модели.
Глубокое погружение: предварительное обучение против настройки инструкций
- Основополагающие выгоды:В необработанной, предварительной форме, баллы T5Gemma 9B -9B +9 баллов на GSM8K и +4 на падение по сравнению с GEMMA29B, свидетельствуют о том, что более богатый контекст энкодера внедряет улучшения рассуждения.
- RLHF и настройка инструкций:Пост -ходьбы, T5Gemma 2b -2b, он прыгает почти на 12 точек и рост от 58,0% до 70,7% на GSM8K по сравнению с его аналогом GEMMA2. Магистраль Encoder-Decoder не только изучает более надежные инструкции, но и усиливает преимущества RLHF для более безопасных, более полезных результатов.
Практические варианты использования и выпуск сообщества
- Суммирование в масштабе:Глубокий энкодер плюс ловкий декодер делает T5Gemma идеальным для дайджестов для документов, генерации многостраничных отчетов и юридических/медицинских резюме, где понимание ввода имеет решающее значение.
- Мультимодальные расширения:Хотя T5Gemma в настоящее время обрабатывает текст, его дизайн энкодера-декодера открывает дверь для будущих адаптаций на языке зрения с помощью межмодальных префиксов.
- Открытые контрольно -пропускные пункты:Все модели T5Gemma, подготовленные с инструкциями, из вариантов 2B/9B на основе малых до XL и GEMMA, выпускаются по разрешающей лицензии. Участники сообщества могут точно определить данные об области, экспериментировать с несбалансированными парами или расширить адаптацию к новым методам.
Новая библиотека Python с открытым исходным кодом Google DeepMind безумна
Genai процессорыПриносит структуру и простоту в мультимодальные трубопроводы в реальном времени. Обратите внимание на все данные как асинхровые потоки стандартизированных «ProcessOrparts», вы можете составлять, оптимизировать и расширять сложные рабочие процессы с несколькими линиями Python.
Потоковая абстракция
- Интерфейс процессора:Каждый шаг, от захвата звука до моделирования вывода до рендеринга вывода, представляет собой процессор, принимая и дает поток процессов (текст, аудио куски, рамки изображений, метаданные).
- Двунаправленная потоковая передача:Двухсторонние потоки позволяют вам обрабатывать вход и вывод в унифицированном потоке, идеально подходящие для живых агентов и интерактивных приложений.
Автоматическая параллелизм и низкая задержка
- Исполнение на графике:Назнаколенные зависимости определяют безопасный параллелизм: независимые филиалы работают одновременно, чтобы минимизировать время до первого токена (TTFT).
- Гарантии заказа:Несмотря на одновременный вычисление, выходной порядок соответствует порядок ввода, сохранение разговора и целостность потока.
Реальные примеры живого агента
- Агент API Live Gemini: Combine videoin () + pyaudioin () → liveprocessor () → pyaudioout (), чтобы построить агент камеры + микрофон в течение десяти строк.
- Текстовый разговорной агент:Ввод микрофона цепного микрофона → Речее - To -Text → Genaimodel → Text -To -Speech → воспроизведение звука для полностью двунаправленного голосового бота.
Основные принципы дизайна
- Modular & Testable:Инкапсулируйте каждую единицу работы в класс процессора для легкого повторного использования и модульного тестирования.
- Асинк - первое:Используйте асинсио Python для выполнения задач ввода/O -O -On -By -By -Bound и CPU без сложности.
- Интеграция API Gemini:Встроенные процессоры для поворотных и живых взаимодействий упрощают использование API Gemini Live.
- Расширяется:Унаследовать или украсить базовые классы для участия в пользовательской логике, API третьих сторон или операциях, специфичных для домена.
- Единый мультимодальный:Metadata Processorpart несет информацию типа, поэтому трубопроводы плавно обрабатывают текст, аудио, изображения и JSON.
Объятие лиц крошечное, но могущественное многоязычное рассуждение
Новый Smollm3's HuggingfaceВпадает в штат - многоязычные рассуждения более 128 тысяч токенов в бережливую модель 3B -параметров, идеально подходящая для развертываемых затрат и вычислительных развертываний без жертвоприношений.
Давний контекст и многоязычное мастерство
- Последовательности токенов 128K:Модифицированное внимание (линейно + сгруппирован) позволяет SMOLLM3 обрабатывать ультра -многоуровневые документы, журналы или транскрипты с минимальными накладными расходами на память.
- Поддержка шестигонов:Обученные на английском, французском, испанском, немецком, итальянском и португальском языках, сильные результаты Xquad и MGSM демонстрируют межпространственное обобщение.
Рассуждение и инструменты с двумя модами
- База против инструкта:
- Smollm3‑3b -baseДля широкого многоязычного поколения и поиска.
- Smollm3‑3b -instructОснащенные через TRLX для чата, инструментальных рабочих процессов и выходов, основанных на схеме.
- Использование инструмента и структурированные выходы:Бесплано следует схемам API для детерминированных инструментов и сложных многоэтапных рассуждений.
Компактный размер, большое влияние
- Параметры 3b:Совместит или превосходит больше моделей 7b+ по ключевым задачам, наилучшее соотношение производительности ипараметрии.
- Экономичное развертывание:Запускается на ограниченных аппаратных и краевых устройствах, снижая затраты на вывод, не отказываясь от точности.
Строгая тренировка и архитектура
- 11t Token Corpus:Высококачественные веб -сайты, кодовые, академические и многоязычные данные.
- Распределенное вспышка внимания v2:Оптимизированное обучение GPU -кластера для продолжительной пропускной способности.
- Токенизатор предложения:128K -Token Ocabulary, разделенный на языках для униформы.
Производительность
- Xquad & mgsm:Конкурентоспособность на шести языках; С нулевой маткой MGSM превосходит около 7b моделей.
- Toolqa и Multihopqa:Сильные многоэтапные рассуждения и контекст заземления.
- ARC & MMLU:Высокая точность знаний и профессиональные знания, соперничающие с более крупными архитектурами.
Идеальные варианты использования
- Многоязычные чат -боты и помощь:Низкая точная языковая поддержка в различных пользовательских базах.
- Давно форма Rag Systems:Суммизация документов, юридическая или медицинская карта с расширенным контекстом.
- Агенты с инструментами:Схема -сочетание оркестровки API для автономных рабочих процессов.
- Edge & Private Deployments:Запускается на оборудованном ресурсах оборудование с конфиденциальностью данных.
Новейшие модели кодирования Mistral AI
Мистралай, в сотрудничестве с Allhandsai, упалдва основных обновленияВ его ориентированной на код линейку:Devstral маленький 1.1(Полностью открытый источник при Apache2.0) иDevstral Medium 2507(API-First, готово предприятия). Обе модели предназначены для того, чтобы преуспеть в рабочих процессах автономных агентов, показывающих превосходное обобщение, схему схемы и лидирующие показатели в задачах разработки программного обеспечения.
Devstral small1.1: агент кода с открытым исходным кодом
- Параметры 24b:Тот же легкий след, как и раньше, теперь сдерживается для более широкого обобщения.
- Swe -Bench проверил:Достигает 53,6%, устанавливая SOTA среди открытых моделей без масштабирования тестирования.
- Агентская универсальность:Бесшовные с наборами инструментов с открытыми руками; Поддерживает функцию Mistral - наказывать и XML -форматы для различных каркасов.
Devstral Medium: API -First, Enterprise готовый
- Высокая пропускная способность:Оценки 61,6% по проверке SWE -Bench, превосходящие Gemini2,5PRO и GPT -4.1 за счет стоимости.
- Гибкое развертывание:Доступно через публичный API или самостоятельно поставлен на частную инфраструктуру.
- Пользовательский тонкий подход:Клиенты предприятия могут адаптировать к доменным специфическим базам и рабочим процессам.
Цены и доступность
- Devstral -Small -2507:$ 0,10 за 1K входные токены; 0,30 долл. США за токены на 1 тысяч, соответствуют тарифам Mistral Small3.1.
- Devstral -Medium -2507:0,40 долл. США за 1K вход; 2,00 долл. США за выход 1K, выравнивается с ценой Mistral Medium3.
- Лицензирование:Small1.1 - Apache2.0 Open -Source; Средний поступает через API кода Mistral и конечные точки MineTuning.
Инструменты и релизы, о которых вы должны знать
Прохождениеявляется инструментом CLI с открытой статьей, который поднимает ваш терминал в полнофункциональную среду парного процесса ИИ, предлагая бесшовную интеграцию с локальными репозиториями GIT для использования без труда контроль версий и помощи кода контекста. Он ускоряет рабочие процессы разработки, разумно интерпретируя историю вашего проекта, предлагая коммиты, рефакторирование и тестовые примеры, при этом твердо удерживая вас в командной строке. С помощью Aider вы получаете выгоду от бессмысленного сотрудничества между человеком и машиной, обеспечивая более быстрые итерации и более качественный код, даже не покидая терминал.
Синкэто облачная платформа для анализа безопасности, предназначенная для защиты вашей кодовой базы путем автоматического сканирования на предмет уязвимостей и вопросов соответствия лицензии с открытой и откровенной. Он постоянно контролирует зависимости, флаги рискованными версиями и обеспечивает действенное руководство по восстановлению, предоставляя командам возможности поддерживать безопасную и проверенную цепочку поставок программного обеспечения. Внедряя безопасность в ваши трубопроводы CI/CD и предлагая подробные отчеты, Synk гарантирует, что безопасность и соответствие остаются главными приоритетами на протяжении всего жизненного цикла разработки.
На таблицеявляется AI -мощным механизмом завершения кода, который от надзора отчитывает вашу IDE с предложениями контекста, взятые из смеси открытых и проприетарных данных обучения. Он предсказывает целые строки или кодовые блоки, адаптируется к вашим шаблонам кодирования и поддерживает широкий спектр языков и структур для повышения точности и разнообразия в вашем рабочем процессе. Предлагая интеллектуальные завершения, поиск документации и настраиваемые модели, Tabnine помогает разработчикам писать более чистый, более эффективный код с меньшим количеством нажатий клавиш и минимальным нарушением.
И это завершает этот вопрос "На этой неделе в искусственном интеллекте."
Спасибо за настройку! Обязательно поделитесь этим информационным бюллетенем со своими коллегами -энтузиастами ИИ и
До следующего раза, счастливого здания!
Оригинал