
Openai, наконец, выпускает агента CHATGPT. Интернет просил
21 июля 2025 г.Привет, энтузиасты ИИ!
Добро пожаловать в двадцать восьмое издание"На этой неделе в области искусственного интеллекта"!
На этой неделе Openai запустил революционного агента CHATGPT, Moonshot AI Kimi K2 Beats Opus4 на 90% дешевле, Mistral выпустил модели распознавания речи миров № 1, смущение обнародовало их умный браузер ИИ, а генеральный директор Cursor должен был публично извиниться.
Как всегда, мы также рассмотрим несколько инструментов, которые могут перегружать ваш рабочий процесс разработки.
Агент Chatgpt наконец -то здесь
OpenAI выпустил агента CHATGPT, унифицированная система, которая сочетает в себе возможности глубоких исследований с компьютерными способностями. Агент может просматривать Интернет, использовать терминалы, записать код, анализировать данные и создавать отчеты, электронные таблицы и презентации, при этом достигая современной производительности в нескольких контрольных показателях.
Что нового
- Unified Computer Operation:Агент работает на своем собственном виртуальном компьютере, разумно переключаясь между веб -браузерами, терминалами и доступом API на основе требований задачи.
- Совместный рабочий процесс:Пользователи могут прервать, перенаправить или взять под контроль в любой момент во время исполнения, поддерживая человеческий надзор за сложными рабочими процессами.
- Повествование в реальном времени:Предоставляет живые обновления своей деятельности и просит разрешения, прежде чем предпринять последовательные действия.
Эталонное доминирование
Агент CHATGPT - это контрольные показатели промышленности по всем направлениям:
- Последний экзамен человечества (вопросы экспертного уровня): 41,6% (новый современный, значительно превосходящий глубокие исследования на уровне 26,6% и Openai O3 на 24,9%)
- Frontiermath (экспертная математика):27,4% (обыграв Openai O4-Mini на 19,3% и O3 на 10,3%)
- Анализ данных DSBench: 89,9% (превосходная производительность человека на уровне 64,1% и GPT-4O при 34,1%)
- BrowseComp (Agentic Browsing):68,9% (новый современный, опережая глубокие исследования на 51,5%)
- Инвестиционное банковское моделирование:71,3% (резко превосходя Openai O3 на 41,0%)
Варианты использования и практические приложения
Агент CHATGPT превосходит в нескольких ключевых областях, которые демонстрируют его реальную утилиту:
Исследования и анализ
- Провести комплексное исследование рынка путем сбора данных из нескольких источников и синтезируя идеи
- Проанализируйте финансовые документы и создайте инвестиционные отчеты с помощью вспомогательных диаграмм и визуализаций
- Выполните обзоры академической литературы по нескольким базам данных и компилируются структурированные резюме
Деловые операции
- Управляйте своим календарем, раздавите презентацию PowerPoint и автоматизируйте обычные административные задачи
- Создайте подробные отчеты о проектах, собирая данные из различных командных инструментов и платформ
- Создайте финансовые модели и выполните сложные расчеты в Excel с точностью на уровне человека
Создание и документация контента
- Генерировать комплексную техническую документацию путем анализа кодовых баз и системных архитектур
- Создайте презентации с помощью данных, основанных на данных
- Разработать учебные материалы, исследуя передовые практики и логически организуя информацию
Что делает его превосходящим других агентов
- Многомодальная интеграция: В отличие от специализированных агентов, которые фокусируются на отдельных задачах, агент CHATGPT плавно объединяет просмотр веб -страниц, выполнение кода, анализ данных и создание контента в одном унифицированном рабочем процессе.
- Дизайн человека в петле: Большинство автономных агентов работают независимо с ограниченным надзором. Агент CHATGPT поддерживает совместный контроль, позволяя пользователям вмешиваться, перенаправлять или утверждать действия в любой момент.
- Современная производительность: Вывод агента CHATGPT сопоставим или лучше, чем у людей примерно в половине случаев по ряду времени выполнения задач, значительно превосходя существующие решения, такие как Claude или специализированные инструменты исследования.
- Адаптивность в реальном времениВ то время как другие агенты следуют за жесткими рабочими процессами, агент CHATGPT динамически переключается между различными инструментами и подходами, основанными на требованиях задачи, что делает его более гибким и эффективным.
Доступность и безопасность
Сейчас выпускаются в Pro, Plus и пользователей команды, и пользователи Pro получают 400 сообщений в месяц, а другие платные пользователи получают 40 сообщений в месяц. OpenAI внедрил обширные гарантии, включая явное подтверждение пользователей для косвенных действий и улучшенные биологические и химические контроли безопасности.
Kimi K2 Beats Claude Opus 4 на 90% дешевле
Moonshot AI Kimi K2добился замечательного подвига стать открытой моделью № 1 на арене LMSYS Chatbot, одновременно обеспечивая исключительную производительность за долю от стоимости проприетарных альтернатив.
Что нового
- Отличное превосходство с открытым исходным кодом: Доступно в качестве KIMI-K2-базы (модель фундамента) и KIMI-K2-конструкция (модель готовой к чату) с 32 миллиардами активированных параметров и 1 триллионом общего объема ».
- Пылающая скорость: Достигает более 200 токенов/секунд на оборудовании для Groq, что делает его одной из самых быстрых моделей вывода.
- Стоимость революции: До 90% дешевле, чем Claude Opus 4, превосходя его по контрольным показателям.
Технические инновации
- MuonClip Optimizer: Техника революционного обучения, которая решила взрывающееся логиты внимания, обеспечивая стабильную предварительную тренировку на 15.5T токенах с нулевыми тренировочными шипами.
- Агентство: Разработано не только для ответа, но и для действия, может использовать инструменты и выполнять сложные рабочие процессы с помощью крупномасштабного синтеза агента.
Эталонная производительность
- Kimi K2 устанавливает новые стандарты между задачами кодирования и STEM:
- LiveCodebench V6: 53,7% (обыграв Claude Sonnet 4 на 48,5% и Claude Opus 4 при 47,4%)
- AIME 2024: 69,6% (значительно опережая Claude Opus 4 при 48,2%)
- Математика-500: 97,4% (опередив Claude Opus 4 при 94,4%)
- Swe-Bench проверил: 65,8% единственная попытка, 71,6% множественные попытки
Реальные приложения
Наука данных и аналитика
- Анализ зарплаты рабочие процессы: Выполнил всесторонний анализ данных о заработной плате с использованием 16 вызовов Ipython, включая очистку данных, статистический анализ, создание визуализации и идентификацию трендов в разных демографиях и категориях работы
- Автоматизация исследований рынка: Автоматизированный сбор и анализ рыночных данных из нескольких источников, создание комплексных отчетов со статистической информацией и прогнозирующего моделирования
Академические и исследовательские заявки
- Стэнфордское исследование генеалогии NLP: Выполненные комплексные исследования генеалогии, включающие в себя несколько инструментов, запросы базы данных, академические статьи по перекрестному ссылке и создание визуализаций семейного дерева с помощью вспомогательной документации
- АВТОМАЦИОНИРОВАНИЕ ЛИТЕРАТУРА: Систематически искал академические базы данных, извлеченные ключ
Разработка программного обеспечения
- Разработка игры с полным стеком: Разработал полную игру JavaScript Minecraft с помощью итерационной отладки, включая настройку игрового двигателя, реализацию 3D -рендеринга, управление игроками, алгоритмы мирового поколения и оптимизация производительности
- Проекты рефакторирования кода: Проанализированы устаревшие кодовые базы, выявленные возможности оптимизации, внедренные улучшения и подтвержденные изменения с помощью автоматического тестирования
Бизнес -аналитика
- Финансовое моделирование: Созданы сложные финансовые модели с планированием сценариев, анализом рисков и автоматическими функциями отчетности
- Оптимизация процесса: Проанализировано бизнес -процессы, выявил узкие места и внедренные автоматизированные решения для повышения эффективности
Контент и документация
- Техническая документация: Автоматически генерируемая комплексная документация по API, руководства пользователя и диаграммы архитектуры системного архитектуры из существующих кодовых баз.
- Создание многоязычного контента: Произведенный технический контент и образовательные материалы на нескольких языках с культурной адаптацией
Mistral выпускает лучшие модели распознавания речи в мире
Mistral AI обнародовал Voxtral, утверждая, что предоставит лучшие в мире модели распознавания речи с открытым исходным кодом. Доступный в двух размерах, Voxtral (24B) для производства и Voxtral Mini (3B) для развертывания града, оба выпускаются по лицензии Apache 2.0.
Что нового
- Современная производительность: Opperforms Open Isperai Whisper Lagry-V3, мини-транскрибибель GPT-4O и Gemini 2.5 вспыхивает во всех задачах транскрипции.
- Многоязычное превосходство: Beats шепчет на каждом языке, протестированном на тесте Fleurs, включая арабский язык, с автоматическим обнаружением и поддержкой высшего уровня.
- Текстовые возможности: Сохраняет возможности модели с полным языком, устраняя основную болезнь, где аудиольмы часто теряют текстовые способности.
Функции готового предприятия
- Контекст токена 32K: Обрабатывает до 30 минут звука для транскрипции и 40 минут для понимания.
- Встроенный интеллект: Прямая Q & A и суммирование от речи без цепочки отдельных моделей.
- Функция вызова: Запустите рабочие процессы непосредственно из голосовых команд.
- Доступный доступ: Ценообразование API начинается всего за 0,001 доллара в минуту, что делает высококачественный речевой интеллект, доступный в масштабе.
Доступность
Доступно через API, загрузку с обнимающими лицами и голосовой интерфейс LE Chat, с вариантами предприятия, включая частное развертывание и точную настройку для специализированных доменов.
Последний веб -браузер по искусственному искусству с недоумением
Смущение официально запустило комету, браузер с AI, который выходит за рамки традиционного поиска для создания интеллектуального, разговорного веб-опыта. Теперь в раннем доступе для пользователей Max Max Comet превращает пассивное просмотр в активное мышление.
От навигации до познания
- Единый интеллект: Организует веб-активность в один интеллектуальный интерфейс, устраняя перегрузку вкладок и трение переключения контекста.
- Разговорной просмотр: Задайте последующие вопросы, когда вы просматриваете, сравниваете контент и копайте глубже, превращаясь в исследования по состоянию потока.
- Контекстуальное понимание: Поддерживает контекст с течением времени, превращая долгие сеансы в бесшовные взаимодействия.
От ответов на действие
- Агент действия: Забронируйте встречи, отправляйте электронные письма, магазин или организуйте свой день, все в одном непрерывном разговоре.
- Делегирование рабочего процесса: Захватить вас, провести сравнение или полные сложные рабочие процессы через естественный разговор.
- Пробурие: Выделите текст на любой странице для объяснений на лету, исследуйте касательные, не теряя места, и запросите контрапункты или более глубокие вопросы.
Ключевые преимущества перед традиционными браузерами
- Контекстуальная память: В отличие от традиционных браузеров, которые рассматривают каждую вкладку как изолированную, Comet поддерживает разговорной контекст на протяжении всего вашего сеанса просмотра, запоминая предыдущие запросы и опираясь на них.
- В реальном времени интеллект: Я использовал новый браузер Comet's Comet, чтобы забронировать ресторан, пока писал эту статью - демонстрируя возможности далеко за пределы пассивного потребления информации традиционных браузеров.
- Уменьшенный хаос вкладок: Устраняет потребность в десятках открытых вкладок, разумно синтезируя информацию и поддержав контекст в одном разговорном потоке.
Как комета превосходит Chrome, Safari и Arc
Сравнение хрома
- Интеллектуальная интеграция: В то время как Chrome требует переключения между вкладками и внешними инструментами искусственного интеллекта, Comet - это веб -браузер, созданный для сегодняшнего Интернета с нативной интеграцией искусственного интеллекта, который понимает контекст во всем вашем сеансе просмотра
- Снижение когнитивной нагрузки: Устраняет необходимость вручную синтезировать информацию из нескольких источников - COMET автоматически соединяет связанную информацию и предоставляет информацию
- Автоматизация задач: Особенности включают в себя суммирование в реальном времени, сравнение продуктов и автоматизацию задач, все в разговорном интерфейсе, в отличие от статического просмотра Chrome.
Сравнение сафари
- Кроссплатформенный интеллект: В отличие от блокировки экосистемы Safari, Comet работает по платформам, сохраняя при этом интеллектуальный контекст
- Упреждающая помощь: Вместо реактивного поиска Safari Comet предвосхищает информационные потребности и предоставляет контекстные предложения
- Эффективность исследования: Преобразует линейный просмотр Safari в динамичное взаимосвязанное открытие знаний
Сравнение дуги
- Ай-первый дизайн: В то время как ARC фокусируется на организации и эстетике, COMET приоритет интеллектуальному взаимодействию и автоматическим рассуждениям
- Разговорной интерфейс: Организация боковой панели ARC бледнику по сравнению с моделью взаимодействия с естественным языком Comet
- Возможности действия: ARC организует контент, но комета может действовать на него - бронирование, отправка электронных писем и непосредственно выполнять задачи
Задачи значительно проще
Исследования и анализ
- Сравнительные покупки: Автоматически сравнивает продукты на нескольких сайтах, синтезируя обзоры, цены и спецификации без ручного переключения вкладок
- Академические исследования: Соединяет соответствующие документы, цитаты перекрестных ссылок и создает всеобъемлющее понимание по нескольким источникам
- Анализ рынка: Агрегации данных из различных финансовых источников и создают аналитические идеи в реальном времени
Ежедневная производительность
- Планирование путешествий: Книги Полеты, отели и рестораны при сохранении контекста о ваших предпочтениях и ограничениях
- Управление электронной почтой: Проблемы ответов на основе веб -исследований и отправляют их непосредственно из браузера
- Интеграция календаря: Планируют встречи, автоматически найдя доступность и отправляя приглашения
Создание контента
- Проверка фактов: Проверяет информацию в режиме реального времени, предоставляя источники и альтернативные перспективы
- Исследование синтез: Сочетает информацию из нескольких источников в последовательные резюме и отчеты
- Управление цитированием: Автоматически отслеживает и форматирует источники для академического или профессионального письма
Доверие и точность
Построенный на подписи о недостатках фактических ответов с доверием, прозрачностью и правдой, идеально подходит для решений с высокими ставками, такими как сравнение планов страхования или понимание инвестиций.
Курсор сталкивается с негативной реакцией по поводу смены цен на план плана
Курсор, платформа кодирования с AI от AnysphereВБыл под огнем после резкого изменения в своем плане Pro в размере 20 долларов в месяц вызвал путаницу пользователей, неожиданные обвинения и широкое разочарование.
Что изменилось
- Старая модель: 500 быстрых ответов в месяц с использованием современных моделей, таких как Claude или GPT-4, плюс неограниченные медленные ответы после крышки.
- Новая модель: $ 20 Ежемесячный кредит на использование модели пограничной модели по реальным ставкам API, с неограниченным использованием только через «Автоматический режим», который динамически выбирает более дешевые или более медленные модели.
Пользовательский разочарование
- Неожиданные обвинения: Многие пользователи достигают ограничения на использование за 20 долларов после всего лишь нескольких подсказок, особенно при использовании таких моделей, как Claude Opus 4.
- Автоматический выставление счетов: Пользователи были взимаются за пределы своего плана, не осознавая, что ограничения расходов должны были быть настроены вручную.
- Ограниченный премиальный доступ: Единственный действительно «неограниченный» доступ к автоматическому режиму, который часто не направляется к моделям премиум -класса.
Ответ курсора
- Генеральный директор Майкл Труэлл издал извинения, подтверждающие плохое общение: «Эти изменения повредили доверие, которое мы усердно работаем, чтобы построить ... Мы пропустили отметку».
- Полный возврат средств: Доступно для любых неожиданных сборов с 16 июня по 4 июля, связавшись с pro-sring @cursor.com.
- Будущие улучшения: Лучшая догадка, более четкая видимость панели инструментов и улучшенные функции пользовательского интерфейса, чтобы предупредить пользователей, приближающихся к ограничениям использования.
Обоснование
Курсор сослался на растущие затраты API от поставщиков моделей, объясняя, что ценообразование на основе запросов не может отражать реальную стоимость более длительных, тяжелых токеновых подсказок, в то время как ценообразование на основе API обеспечивает более точную структуру затрат для расширенного использования.
Инструменты и релизы, о которых вы должны знать
Прыжок айявляется платформой автоматизации рабочих процессов без кода для создания и развертывания рабочих процессов с AI. Подключите услуги и инструменты искусственного интеллекта для создания сложных трубопроводов автоматизации, которые автоматизируют повторяющиеся работы и оптимизируют ваши процессы. Идеально подходит для команд, желающих интегрировать возможности ИИ без сложных накладных расходов.
Windframe.devявляется мощным застройщиком пользовательского интерфейса, построенный на вершине CSS. Подумайте об этом, как Figma для разработчиков фронта, но с образованием кода в прямом эфире и управления на уровне компонентов. Проектируйте интерфейсы визуально и экспортируют чистый, готовый к производству код мгновенно, что делает его идеальным для быстрого прототипирования и профессионального развития.
Реплицироватьявляется ведущей облачной платформой, позволяющей разработчикам программного обеспечения работать, настраиваться и развернуть модели машинного обучения без особых усилий с помощью простого API. Удаляя барьеры сложной инфраструктуры ИИ, Replicate предлагает доступ к тысячам моделей с открытым исходным кодом, а также возможности размещения пользовательских решений, что делает развертывание искусственного интеллекта доступным для разработчиков в любом масштабе.
И это завершает этот вопрос "На этой неделе в искусственном интеллекте."
Спасибо за настройку! Обязательно поделитесь этим информационным бюллетенем со своими коллегами -энтузиастами искусственного интеллекта и следите за тем, как для более еженедельных обновлений.
До следующего раза, счастливого здания!
Оригинал