Оператор: следующий шаг OpenAI к «агентному» будущему

24 января 2025 г.

В то время как производители ноутбуков и смартфонов, такие как Samsung, распространяют генеративный ИИ на все аспекты своих устройств, OpenAI пытается сделать то же самое с агентским инструментом, анонсированным 23 января. Инструмент под названием Operator работает на той же базовой технологии, что и ChatGPT, но находится в фирменном веб-браузере. Это позволяет ему автономно выполнять такие действия, как заказ продуктов или бронирование туров.

OpenAI в своем блоге предположил, что Operator может «открыть новые возможности взаимодействия для бизнеса», но не вдавался в подробности.

Кто такой оператор OpenAI?

Operator — это приложение, которое включает в себя веб-браузер и генеративную модель ИИ GPT-4o. Это результат проекта OpenAI по обучению возможностей зрения GPT-4o на графических пользовательских интерфейсах, которые можно найти на типичных веб-страницах. Его способность составлять многошаговые планы и самостоятельно исправлять ошибки при необходимости выделяет его среди других усилий по созданию агентного ИИ, хвастается OpenAI. Модель Computer-Using Agent (CUA) оператора обучена специально на кнопках, формах и меню, которые, скорее всего, будут встречаться на веб-странице.

Operator находится в стадии бета-тестирования. OpenAI заявила, что отзывы ранних пользователей будут использованы для его улучшения.

Подписчики ChatGPT Pro могут зарегистрироваться в Operator уже сегодня.

OpenAI планирует вскоре предоставить Operator для Plus, Team и Enterprise. Технологический гигант также намерен интегрировать свои возможности в ChatGPT в целом. Они включат CUA в свой API «скоро», согласно сообщению в блоге.

Как работает оператор?

Компания утверждает, что метод рассуждений CUA, который они называют «внутренним монологом», помогает модели понимать промежуточные шаги и адаптироваться к неожиданному вводу. Под капотом CUA делает скриншоты веб-страниц и использует виртуальную мышь и клавиатуру для навигации.

Как и в случае с ChatGPT, пользователи могут добавлять индивидуальные инструкции, которые запомнит оператор, например, предпочитаемую авиакомпанию пользователя.

СМ.: Злоумышленники могут взломать генеративный ИИ, чтобы автоматически создавать фишинговые письма и другой вредоносный контент.

Пользователи могут задавать запросы Operator на естественном языке так же, как они задают запросы ChatGPT. Operator обучен отказываться от входа на сайты, предоставления платежных данных или прохождения CAPTCHA, поэтому он передаст управление пользователю для этих шагов. Operator запрограммирован не принимать запросы — например, на совершение банковских транзакций — или не высказываться в ситуациях с высокими ставками, например, при принятии решения о найме сотрудника.

Если Оператор сталкивается с интерфейсом, с которым он не может предсказать, как взаимодействовать, он возвращает задачу пользователю. OpenAI напрямую сотрудничал со следующими компаниями, чтобы убедиться, что Оператор может взаимодействовать с их сайтами:

    DoorDash. Instacart. OpenTable. Priceline. StubHub. Thumbtack. Uber.

OpenAI отмечает, что ранняя версия Operator испытывает трудности со «сложными интерфейсами», включая создание слайд-шоу или добавление элементов в календари.

Оператор входит в переполненный ландшафт генеративного ИИ

Некоторые функции Operator пересекаются с инструментами конкурентов, такими как Google Gemini или Apple Intelligence.

Operator можно сравнить с сильно критикуемой функцией Recall от Microsoft, которая использует снимки экрана для навигации по ПК. Operator также разделяет некоторые возможности с Google Lens в Chrome. Однако его способность автономно перемещаться по веб-сайтам может стать точкой отличия. Агентный ИИ, в котором генеративные модели ИИ выполняют многошаговые поручения в учетной записи пользователя, является либо горячей новинкой в ​​технологиях, либо новым способом упаковки все еще ограниченных продуктов.

Подпишитесь на рассылку Innovation Insider Узнайте о последних технологических инновациях, которые меняют мир, включая IoT, 5G, последние новости о телефонах, безопасности, умных городах, ИИ, робототехнике и многом другом. Доставка по вторникам и пятницам Адрес электронной почты Подписываясь на нашу рассылку, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности. Вы можете отписаться в любое время. Подписаться
Подпишитесь на рассылку Innovation Insider Узнайте о последних технологических инновациях, которые меняют мир, включая IoT, 5G, последние новости о телефонах, безопасности, умных городах, ИИ, робототехнике и многом другом. Доставка по вторникам и пятницам Адрес электронной почты Подписываясь на нашу рассылку, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности. Вы можете отписаться в любое время. Подписаться

Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE