OpenAI O3 на 80% дешевле, самое большое обновление Apple WWDC 2025, модель рассуждения Мистрала и многое другое

OpenAI O3 на 80% дешевле, самое большое обновление Apple WWDC 2025, модель рассуждения Мистрала и многое другое

17 июня 2025 г.

Привет, энтузиасты ИИ!

Добро пожаловать в двадцать третье издание"На этой неделе в области искусственного интеллекта"!

На этой неделе Openai выпустила свою новую модель O3-Pro и сделала O3-Mini на 80% дешевле, Apple открыло открытое на основе своего основополагающего искусственного интеллекта для разработчиков третьих сторон, Mistral выпустила магистрат, их первую модель рассуждений, Higgsfield запустила новую видео-модель. Поколение адаптера.

При этом мы также рассмотрим несколько инструментов, которые могут перегружать ваш рабочий процесс разработки.


OpenAI запускает O3-Pro, Slashes O3 Price на 80%

OpenAI запустил O3 -Pro, его новейшая флагманская языковая модель, обладающая ошеломляющим снижением цены на токен на 80 процентов наряду с набором архитектурных и эффективных обновлений. Мало того, что этот выпуск является наиболее экономически эффективным вариантом в линейке Openai, но также обеспечивает улучшенную обработку контекста, более быстрый вывод и большую мультимодальную гибкость.

Что нового

  • Адаптивное токеновое объединение: Группы общие последовательности токенов в слитые операции, уменьшая накладные расходы на память на 25 процентов.

  • Приоритетное планирование внимания: Присваивает динамический приоритет токенам на основе значимости, улучшая актуальность ответа в настройках с низким разрешением.

  • Улучшенный мультимодальный слияние: Вводит слой нормализации поперечного анимации для синхронизированной обработки входов изображения и текста, повышение точности на задачах языка зрений на 15 процентов.

Агрессивные цены и эффективность

  • На 80 процентов падение цен:Доступ к O3 в настоящее время в четыре раза дешевле, чем его предшественник, что делает высокие возможности LLM более доступными как для стартапов, так и для предприятий.

  • Цена O3:2 долл. США за 1 млн входных токенов, 8 долл. США за 1 млн. Токены (ранее в пять раз выше). В настоящее время это, по сути, та же самая модель O3, намного дешевле из -за оптимизации стека.

  • Цена O3-Pro:20 долл. США за 1 млн входных токенов, 80 долл. США за 1 млн. Токены, снижение на 87% по сравнению с O1-PRO, что отражает увеличение вычислений и возможностей этого уровня. OpenAI рекомендует использовать фоновый режим с O3-Pro для длительных задач, которые обрабатываются асинхронно для предотвращения тайм-аутов.

  • Динамическое точное масштабирование:Автоматически настраивает точность бит -ширины на слое, уравновешивая вычислительные затраты в зависимости от точности выходного сигнала в режиме реального времени.

  • Многомодальная поддержка:Назначает текст, изображение и табличные данные, обеспечивая более богатый контекст для сложных запросов.

Производительность

  • Контекстуальное понимание: 10 процентов усиления на суперклей по сравнению с O3, уменьшая ошибки рассуждения здравого смысла.

  • Скорость вывода: 1,8 × быстрее средней задержки в контексте 2048 -х покро, благодаря оптимизации внимания блока.

  • Пропускная способность: Выдерживает 150Tokens/Sec на одном графическом процессоре A100, по сравнению с 90tokens/Sec в O3.

С помощью этих обновлений O3-Pro устанавливает новый стандарт для экономически эффективных, высокопроизводительных и гибких рассуждений искусственного интеллекта, что делает расширенные языковые и мультимодальные возможности более доступными, чем когда-либо прежде.


Apple Intelligence наконец -то получает лечение, которого заслуживает

Впервые,Apple открыла свою большую языковую модель на Device, работающий от Apple Intelligence, для разработчиков третьих сторон. Этот шаг предоставляет прямой доступ к API к модели, оптимизированной для конфиденциальности, эффективности и бесшовной интеграции в iOS, MacOS и Visionos.

Включая вывод на грани, Apple AI значительно снижает задержку и повышает безопасность данных, критически важные для взаимодействия пользователей в реальном времени. Интеграции третьих сторон могут использовать тесно оптимизированные нейронные двигатели Apple, обеспечивая постоянную производительность между устройствами без сетевых зависимостей. Разработчики теперь могут создавать захватывающий, сохраняющий конфиденциальность опыт, который использует общеобразовательный контекст (например, пользовательские предпочтения, данные датчиков) для предоставления более умных, адаптивных приложений.

Конфиденциальность - первая интеграция

  • Вывод на DEVICE: Вся оперативная обработка и генерация происходят локально, гарантируя, что пользовательские данные никогда не покидают устройство.

  • Разработчик SDK: New Swift and Objective -C API -интерфейсы пусть приложения позволяют приложениям вызывать LLM для таких задач, как суммирование, перевод и беседовые помощники.

  • Межплатформенная последовательность: Идентичное поведение и производительность, будь то на iPhone, iPad, Mac или Vision Pro.

Ключевые варианты использования

  • Безопасные чат -боты: Создайте агентов поддержки клиентов, которые обрабатывают конфиденциальную информацию полностью в автономном режиме.

  • Контекстуальная автоматизация пользовательского интерфейса: Drive Adaptive Interfaces на основе поведения пользователей и контента экрана в режиме реального времени.

  • Повествование о дополненной реальности: Обеспечить естественные аннотации для опыта Vision Pro без задержки сети.

Будущее Apple Intelligence?

  • Этот доступ разработчика знаменует собой ключевой момент для Apple Intelligence, сигнализируя о том, что при запуске iPhone 17 или в конце 2025 года возможности Apple AIS будут значительно более продвинутыми и глубоко интегрированными.

  • Затрачивающие месяцы для разработчиков, чтобы опираться на эти новые инструменты, ожидайте всплеска более умных, первых контекстов, контекстных приложений по всей экосистеме Apple.

  • По мере того, как Apple расширяет языковую поддержку и устройства, Apple Intelligence станет основной частью iPhone, iPad, Mac и Vision Pro, обеспечивая более богатые, адаптивные и безопасные взаимодействия с AI для пользователей повсюду.

Новая модель рассуждений Мистрала сокращает галлюцинации на 30%

Mistral AI обнародовал магистрат, первая в отрасли модель открытой рассуждения. Объединив символические модули рассуждений с нейронными костями, он превосходит поэтапные логические задачи, преодолевая разрыв между необработанным вычислением и человеком, подобным человеку.

Гибридный дизайн магистрала учитывает общее ограничение в чистых нейральных LLM: логическая последовательность. Символические модули кодируют явные правила для доменов, таких как математика и обход графика, в то время как трансформатор обрабатывает неструктурированный язык. Ранние пользователи сообщают о 30 -процентных галлюцинациях в многоэтапном решении проблем по сравнению со стандартными моделями 16B.

Гибридная архитектура рассуждений

  • Нейро -символическое ядро: Интегрирует логический двигатель для пропозициональных рассуждений с трансформатором 16B для понимания естественного языка.
  • Самооценка цепочки: Каждый шаг рассуждения включает в себя внутреннюю проверку согласованности, сокращение распространения ошибок.
  • Модульные плагины: Расширяемые модули для математики, проверки кода и запросов графа знаний.

Эталонная производительность

  • Доказательство поколения: Решает передовые теоремы задачи на GSM8K с 85 -процентной точностью.
  • Многоугольный QA: Превосходит сопоставимые LLMS на 12 процентов на HotPotqa.
  • Кодовое рассуждение: Превосходно в статических задачах анализа, обнаруживая логические ошибки в невидимых фрагментах кода.

Большой шаг Meta AI к настоящему AGI

Meta's V-Jepa 2является мощной мировой моделью, которая значительно способствует способности ИИ понимать, предсказывать и генерировать видеоконтент в течение длительных временных горизонтов, что является важным шагом к искусственному общему интеллекту (AGI).

Обработка до 1024 кадров (около 34 секунд при 30 кадров в секунду) в одном проходе и поддержав гладкое, без мерцающее движение, V-JEPA 2 демонстрирует ключевые черты AGI: изучение необработанных сенсорных данных, обобщение до новых задач и рассуждения о сложных динамических средах, как это делают люди.

Что такое мировая модель?

Мировая модель - это система ИИ, которая изучает внутреннюю карту своей среды, позволяя ей понять, предсказывать и планировать в реальном мире, так же, как люди ожидают того, что будет дальше, наблюдая за их окружением. Узнайте больше о мировых моделяхздесьПолем

Временные и генеративные улучшения

  • Расширенное окно контекста:Обрабатывает длинные последовательности видео с 1024 кадрами, что обеспечивает последовательный повествование и визуальную когерентность в течение длительных периодов.

  • Поколение под управлением потоком:Использует приоры оптического потока для сохранения гладкого, стабильного движения через рамки, уменьшая мерцание и артефакты в генерируемых видео.

  • Адаптивное разрешение:Динамически корректирует пространственное разрешение на кадр на основе интенсивности движения, чтобы оптимизировать детализацию и вычислительную эффективность.

AGI-релевантные возможности

  • Мировое моделирование и физические рассуждения:Обученный более 1 миллиона часов видео и 1 миллион изображений, V-Jepa 2 учится предвидеть результаты, понимать причину и следствие и планировать действия в новых средах.

  • Планирование роботов с нулевым выстрелом:Позволяет роботам выполнять сложные задачи манипуляции в незнакомых настройках, используя только изображения визуальных целей, с минимальной тонкой настройкой.

  • Мультимодальное рассуждение:Достигает современных результатов в ответе на видео, интегрируя визуальное понимание и языкового понимания.

  • Эталонный лидерство:Преимуществу изучение контрольных показателей, таких как Intphys 2, MVPBench и CausAlVQA, измерение правдоподобия, ожидания и контрфактивных рассуждений.

Ключевые варианты использования

  • Видеоровное обобщение:Создает краткие яркие катушки с повествовательными подписями от часов отснятого материала.

  • Фильтры дополненной реальности:Пауэрс динамические эффекты отслеживания объектов, которые остаются стабильными с течением времени.

  • Синтетическое генерация данных:Производит последовательные видео-клипы для обучения автономных системам и роботов.

    Позволяя ИИ моделировать, прогнозировать и планировать в сложных, реальных средах, использующих только видеоданные, V-Jepa 2 приближает нас к видению AGI, адаптируемой, общей разведки, способной понимать и взаимодействовать с миром таким же гибким и надежным, как и люди.


Этот инструмент анимирует любое лицо с точностью 92%

Хиггсфилд запустил Speak, генеративный двигатель, который анимирует любое лицо, будь то человеческая, автомобильная решетка, зомби или даже кофейная кружка, позволяя им говорить естественный язык. В сочетании с потоком.

Используя предварительно обученные достопримечательности лица и легкую GAN для синтеза выражения, Speat Adancts к разнообразным субъектам с пятью эталонными кадрами. Поддержка голосового клонирования позволяет персонажам принять любой стиль, от драматического до случайного разговора.

Универсальная лицевая анимация

  • Любое лицо, любое предмет: Тренируйтесь на одном эталонном изображении или объекте и генерируйте жизненные анимации речи.

  • Flux.1 Интеграция Kontext: Используйте контекстное понимание многоуровневого контекста, чтобы поддерживать согласованность символов в диалогах.

  • Аудио -лип -синхронизация: Тонко подходит для сопоставления фонем с точными формами рта и выражениями.

Ключевые приложения

  • Интерактивный маркетинг: Создать демо говорящие продукты, где сам продукт объясняет функции.

  • Образовательные аватары: Воплотить в жизнь исторические фигуры, проведя лекции своим «голосом».

  • Развлечение: Генерировать комедийные пародии с неодушевленными объектами в качестве персонажей.

Openai Whisper, но намного лучше

Картезия взяла шепотом от шепотаЧернила, специально построенная потоковой речи -речи к тексту, созданную для живого диалога. В отличие от Standard Whisper, который превосходен в объемной транскрипции, но борется с задержкой и сложной акустикой, чернила доставляет точность студийного класса, ультра -низкую задержку и устойчивость в дикой природе через телефонные звонки, переполненные комнаты и разнообразные акценты.

Основные улучшения в реальном времени

  • Динамичный блюд: Аудио разделен на семантических границах, паузах, заканчиваниях предложения или пунктуации, поэтому каждый фрагмент несет значимый контекст, сокращает ошибки транскрипции и галлюцинации.

  • Адаптивный вывод: Низкобитовые потоки телефонии получают снижение шума и нормализацию по поводу усиления, восстанавливая ясность для сжатого звука.

  • Доменные адаптационные слои: Точно на хранении на жаргоне (финансовые отчеты, каталоги продуктов, медицинская терминология), чтобы прибить правильные существительные и специализированный словарный запас.

  • На акустической калибровке: Непрерывное профилирование шума окружающей среды, трафика, болтовни кафе и статика обеспечивает регулировку спектра в реальном времени без ручного повторного перевышения.

  • Акцентный энкодер: Обученный наборе данных о глобальном акценте, чтобы обеспечить транскрибируется ненародные и региональные английские разновидности с одинаковой верностью.

  • Разрушение и молчание: Признает «UM», «UH» и расширенные паузы в качестве разговорных сигналов вместо ошибок, сохраняя транскрипты естественными и всеобъемлющими.

Производительность и задержка

Помимо точности, чернила - Whisper отдает приоритет временным транскрипту (TTCT) - задержка от конца речи до полного транскрипта. Используя свой динамичный отключение и обтекаемый вывод, чернила достигает лидерства в отрасли TTCT, сохраняя естественный ритм разговора и предотвращая задержки, подобные ботам, которые расстраивают пользователей.

Ключевые варианты использования

  • Контактные центры с поддержкой голоса: Точная, в реальном времени транскрипция звонков клиентов - даже в нестабильных сотовых сетях.

  • Интерактивные голосовые помощники:Мгновенный поворот с почти носовым задержкой, позволяя по -настоящему разговорному ИИ.

  • Живые подписи и доступность: Подписи в реальном времени для лекций, вебинаров и трансляций в любой среде.

  • Транскрипция, специфичная для домена:Точная диктовка для финансов, здравоохранения и юридических секторов, благодаря специализированной поддержке словарного запаса.

Доступная потоковая передача и бесшовная интеграция

  • Рентабельный: Только 1CREDIT/SEC (≈ 0,13 долл. США/час), самая низкая цена на потоковую модель STT по производству.

  • С открытым исходным кодом и самостоятельным: Полные веса доступны для пользовательских развертываний и дальнейших мелких.

  • Легкие плагины: Готовые интеграции для VAPI, Pipecat и LiveKit заставляют вас транслировать за считанные минуты.

  • Надежность предприятия: Поддержано 99,9% времени безотказной работы, Soc2typeii, Hipaa и PCI.

В каждом случае чернила, Whisper, встречается или побеждает Whisper -Farge -V3 -Turbo по скорости слова (WER), обеспечивая меньшее количество команд Misheard и более четкие подписи в условиях реального мира.


Инструменты и релизы, о которых вы должны знать

Text-to-Api.aiэто платформа, управляемая быстрыми темпами, которая позволяет вам создавать и развернуть API-интерфейсы с AI-мощностью за считанные секунды. Просто опишите необходимое поведение, и оно генерирует полностью размещенную конечную точку в комплекте с аутентификацией, автоматическим масштабным и аналитикой использования. Благодаря интеграциям в ящике для популярных фреймворков и SDK, она идеально подходит для разработчиков и стартапов, которые хотят превратить эксперименты по ИИ в услуги по производству -обновлению без управления инфраструктурой.

Windframe.devУскоряет фронтальную разработку, генерируя компоненты и шаблоны с помощью AI, которые вы можете настроить в визуальном редакторе. Независимо от того, разработаете ли вы мониторные панели, целевые страницы или сложные веб -приложения, библиотека блок Windframe предварительно подготовленного пользовательского интерфейса и одноклассные инструменты тематических инструментов помогают вам перейти от эскиза до кода до 10 × быстрее. Он экспортирует чистое реагирование, VUE или простой HTML/CSS, что делает его идеальным для дизайнеров и инженеров, которым нужны результаты идеальных пикселей в сжатые сроки.

Auteng.aiПриносит разговорный интерфейс во весь рабочий процесс разработки, просто чат для создания функций, отслеживания ошибок или генерации документации. Он понимает контекст между файлами и может рефракторный код, записать тесты и даже предлагать конфигурации CI. Интегрируя с GIT и Popular Ides, Auteng.ai дает возможность профессиональным командам и инженерам соло кодировать, отладка и документирование с помощью подсказок естественного языка, уменьшая трение и поддерживая всех в синхронизации.


И это завершает этот вопрос "На этой неделе в области искусственного интеллекта", принесенный вамJam.dev- Ваш рекордер для приложений для искусственного интеллекта! Неопределенные проблемы ИИ трудно воспроизвести, если у вас нет джема! Мгновенное воспроизведение сеанса, просьба + журналы для отладки ⚡

Спасибо за настройку! Обязательно поделитесь этим информационным бюллетенем со своими коллегами -энтузиастами искусственного интеллекта и следите за тем, как для более еженедельных обновлений.

До следующего раза, счастливого здания!


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE