
Новые модели ИИ Openai O3 и O4-Mini теперь могут «думать с изображениями»
19 апреля 2025 г.OpenAI развернула две новые модели ИИ, O3 и O4 -Mini, которые могут буквально «думать с изображениями», отмечая большой шаг вперед в том, как машины понимают картинки. Эти модели, анонсированные в пресс -релизе Openai, могут рассуждать об изображениях так же, как и в отношении текста - обрезки, масштабирования и вращающихся фотографий в рамках их внутреннего мыслительного процесса.
В основе этого обновления лежит способность смешать визуальные и словесные рассуждения.
«OpenAI O3 и O4 -Mini представляют собой значительный прорыв в визуальном восприятии, рассуждая изображения в своей цепочке мышления», - говорится в пресс -релизе компании. В отличие от прошлых версий, эти модели не полагаются на отдельные системы зрения - вместо этого они изначально смешивают инструменты изображений и текстовые инструменты для более богатых, более точных ответов.
Как работает «мышление с изображениями»?
Модели могут обрезать, увеличивать, вращать или переворачивать изображение как часть своего мышления, как и люди. Они не просто узнают, что на фотографии, но и работают с этим, чтобы сделать выводы.
Компания отмечает, что «улучшенный визуальный интеллект CATGPT помогает вам решить более жесткие проблемы, анализируя изображения более тщательно, точно и надежно, чем когда -либо прежде».
Это означает, что если вы загрузите фотографию рукописной математической задачи, размытого знака или сложной диаграммы, модель может не только понимать ее, но и разбить ее шаг за шагом - возможно, даже лучше, чем раньше.
Превосходит предыдущие модели в ключевых тестах
Эти новые способности не просто впечатляют в теории; OpenAI говорит, что обе модели превосходят своих предшественников в отношении лучших академических и ориентировочных показателей.
«Наши модели устанавливают новую современную производительность в ответе на вопрос STEM (MMMU, Mathvista), чтение и рассуждение диаграммы (Charxiv), примитивы восприятия (VLMS-слепые) и визуальный поиск (V*)»,-отметила компания в своем заявлении. «На V*наш подход визуального рассуждения достигает 95,7% точности, в значительной степени решает контрольный показатель».
Но модели не идеальны. Openai признает, что модели могут иногда задумываться, что приводит к длительным и ненужным манипуляциям на изображении. Есть также случаи, когда ИИ может неверно истолковывать то, что он видит, несмотря на правильно, используя инструменты для анализа изображения. Компания также предупреждала о проблемах надежности, когда несколько раз пытался одну и ту же задачу.
Кто может использовать Openai O3 и O4-Mini?
По состоянию на 16 апреля как O3, так и O4-Mini доступны для Chatgpt Plus, Pro и пользователей команды; Они заменяют более старые модели, такие как O1 и O3-Mini. Пользователи предприятия и образования получат доступ на следующей неделе, и бесплатные пользователи могут попробовать O4-Mini через новую функцию «Think».
Оригинал