Новые модели ИИ Openai O3 и O4-Mini теперь могут «думать с изображениями»

Новые модели ИИ Openai O3 и O4-Mini теперь могут «думать с изображениями»

19 апреля 2025 г.

OpenAI развернула две новые модели ИИ, O3 и O4 -Mini, которые могут буквально «думать с изображениями», отмечая большой шаг вперед в том, как машины понимают картинки. Эти модели, анонсированные в пресс -релизе Openai, могут рассуждать об изображениях так же, как и в отношении текста - обрезки, масштабирования и вращающихся фотографий в рамках их внутреннего мыслительного процесса.

В основе этого обновления лежит способность смешать визуальные и словесные рассуждения.

«OpenAI O3 и O4 -Mini представляют собой значительный прорыв в визуальном восприятии, рассуждая изображения в своей цепочке мышления», - говорится в пресс -релизе компании. В отличие от прошлых версий, эти модели не полагаются на отдельные системы зрения - вместо этого они изначально смешивают инструменты изображений и текстовые инструменты для более богатых, более точных ответов.

Как работает «мышление с изображениями»?

Модели могут обрезать, увеличивать, вращать или переворачивать изображение как часть своего мышления, как и люди. Они не просто узнают, что на фотографии, но и работают с этим, чтобы сделать выводы.

Компания отмечает, что «улучшенный визуальный интеллект CATGPT помогает вам решить более жесткие проблемы, анализируя изображения более тщательно, точно и надежно, чем когда -либо прежде».

Это означает, что если вы загрузите фотографию рукописной математической задачи, размытого знака или сложной диаграммы, модель может не только понимать ее, но и разбить ее шаг за шагом - возможно, даже лучше, чем раньше.

Превосходит предыдущие модели в ключевых тестах

Эти новые способности не просто впечатляют в теории; OpenAI говорит, что обе модели превосходят своих предшественников в отношении лучших академических и ориентировочных показателей.

«Наши модели устанавливают новую современную производительность в ответе на вопрос STEM (MMMU, Mathvista), чтение и рассуждение диаграммы (Charxiv), примитивы восприятия (VLMS-слепые) и визуальный поиск (V*)»,-отметила компания в своем заявлении. «На V*наш подход визуального рассуждения достигает 95,7% точности, в значительной степени решает контрольный показатель».

Но модели не идеальны. Openai признает, что модели могут иногда задумываться, что приводит к длительным и ненужным манипуляциям на изображении. Есть также случаи, когда ИИ может неверно истолковывать то, что он видит, несмотря на правильно, используя инструменты для анализа изображения. Компания также предупреждала о проблемах надежности, когда несколько раз пытался одну и ту же задачу.

Кто может использовать Openai O3 и O4-Mini?

По состоянию на 16 апреля как O3, так и O4-Mini доступны для Chatgpt Plus, Pro и пользователей команды; Они заменяют более старые модели, такие как O1 и O3-Mini. Пользователи предприятия и образования получат доступ на следующей неделе, и бесплатные пользователи могут попробовать O4-Mini через новую функцию «Think».

Подпишитесь на информационный бюллетень Innovation Insider Познакомьтесь с новейшими технологическими инновациями, которые меняют мир, включая IoT, 5G, последнее о телефонах, безопасности, интеллектуальных городах, искусственном интеллекте, робототехнике и многом другом. Поставлено вторниками и пятницами Адрес электронной почты Подписавшись на получение нашей рассылки, вы соглашаетесь с нашими Условиями использования и политикой конфиденциальности. Вы можете отказаться от подписки в любое время. Подписаться
Подпишитесь на информационный бюллетень Innovation Insider Познакомьтесь с новейшими технологическими инновациями, которые меняют мир, включая IoT, 5G, последнее о телефонах, безопасности, интеллектуальных городах, искусственном интеллекте, робототехнике и многом другом. Поставлено вторниками и пятницами Адрес электронной почты Подписавшись на получение нашей рассылки, вы соглашаетесь с нашими Условиями использования и политикой конфиденциальности. Вы можете отказаться от подписки в любое время. Подписаться

Оригинал
PREVIOUS ARTICLE