Клод 3.5 Сонет может управлять вашим компьютером

24 октября 2024 г.

Anthropic представила крупное обновление своих моделей искусственного интеллекта Claude, включая новую функцию «Использование компьютера». Разработчики могут направлять обновленный Claude 3.5 Sonnet для навигации по приложениям рабочего стола, перемещения курсоров, нажатия кнопок и ввода текста — по сути, имитируя человека, работающего за своим ПК.

«Вместо того чтобы создавать специальные инструменты, помогающие Клоду выполнять отдельные задачи, мы обучаем его общим навыкам работы на компьютере, позволяя ему использовать широкий спектр стандартных инструментов и программ, разработанных для людей», — написала компания в своем блоге.

API Computer Use можно интегрировать для перевода текстовых подсказок в компьютерные команды, при этом Anthropic приводит такие примеры, как «использовать данные с моего компьютера и из сети, чтобы заполнить эту форму» и «переместить курсор, чтобы открыть веб-браузер». Это первая модель ИИ от лидера ИИ, которая способна просматривать веб-страницы.

Обновление работает, анализируя скриншоты того, что видит пользователь, а затем вычисляя, сколько пикселей ему нужно переместить курсор по вертикали или горизонтали, чтобы щелкнуть в нужном месте или выполнить другую задачу с помощью доступного программного обеспечения. Оно может обрабатывать до сотен последовательных шагов для завершения команды и будет самокорректироваться и повторять шаг, если столкнется с препятствием.

Computer Use API, доступный сейчас в публичной бета-версии, в конечном итоге нацелен на то, чтобы позволить разработчикам автоматизировать повторяющиеся процессы, тестировать программное обеспечение и выполнять открытые задачи. Платформа разработки программного обеспечения Replit уже изучает возможность использования его для навигации по пользовательским интерфейсам с целью оценки функциональности по мере создания приложений для ее продукта Replit Agent.

«Возможность ИИ напрямую взаимодействовать с программным обеспечением компьютера так же, как это делают люди, откроет огромный спектр приложений, которые просто невозможны для нынешнего поколения помощников на основе ИИ», — написала Anthropic в своем блоге.

Использование компьютера Клодом по-прежнему довольно подвержено ошибкам

Anthropic признает, что функция не идеальна; она все еще не может эффективно обрабатывать прокрутку, перетаскивание или масштабирование. В оценке, разработанной для проверки ее способности бронировать рейсы, она была успешной только в 46% случаев. Но это улучшение по сравнению с предыдущей итерацией, которая набрала 36%.

Поскольку Claude полагается на скриншоты, а не на непрерывный видеопоток, он может пропускать кратковременные действия или уведомления. Исследователи признают, что во время одной демонстрации кодирования он прекратил то, что делал, и начал просматривать фотографии Йеллоустонского национального парка.

Он набрал 14,9% на OSWorld, платформе для оценки способности модели выполнять задачи, основанные на скриншотах, как это делают люди. Это очень далеко от уровня человеческого мастерства, который, как считается, составляет от 70% до 75%, но это почти вдвое больше, чем у следующей лучшей системы ИИ. Anthropic также надеется улучшить эту способность с помощью отзывов разработчиков.

Использование компьютера имеет некоторые сопутствующие функции безопасности

Исследователи Anthropic говорят, что был принят ряд преднамеренных мер, направленных на минимизацию потенциального риска, связанного с использованием компьютера. В целях конфиденциальности и безопасности он не обучается на предоставленных пользователем данных, включая обрабатываемые им скриншоты, и не может получить доступ к Интернету во время обучения.

Одной из основных выявленных уязвимостей являются атаки с мгновенным внедрением, своего рода «взлом», при котором вредоносные инструкции могут заставить ИИ вести себя непредсказуемо.

Исследование, проведенное Институтом безопасности ИИ в Великобритании, показало, что атаки с джейлбрейком могут «обеспечить согласованное и вредоносное многошаговое поведение агента» в моделях без таких возможностей Computer Use, таких как GPT-4o. Отдельное исследование показало, что атаки с джейлбрейком с использованием генеративного ИИ успешны в 20% случаев.

Чтобы снизить риск мгновенного внедрения в Claude Sonnet 3.5, команды по доверию и безопасности внедрили системы для выявления и предотвращения таких атак, особенно с учетом того, что Claude может интерпретировать снимки экрана, которые могут содержать вредоносный контент.

Кроме того, разработчики предвидели потенциальную возможность злоупотребления компьютерными навыками Клода со стороны пользователей. В результате они создали «классификаторы» и системы мониторинга, которые определяют, когда могут происходить вредоносные действия, такие как спам, дезинформация или мошенническое поведение. Он также не может публиковать сообщения в социальных сетях или взаимодействовать с правительственными веб-сайтами, чтобы избежать политических угроз.

Совместные испытания перед развертыванием проводились Институтами безопасности США и Великобритании, и Claude 3.5 Sonnet по-прежнему имеет уровень безопасности ИИ 2, что означает, что он не представляет значительных рисков, требующих более строгих мер безопасности, чем существующие.

СМОТРИТЕ: OpenAI и Anthropic подписывают соглашения с Институтом безопасности искусственного интеллекта США, передавая модели Frontier для тестирования

Claude 3.5 Sonnet лучше справляется с кодированием, чем его предшественник

В дополнение к использованию компьютера бета, Claude 3.5 Sonnet предлагает значительные преимущества в кодировании и использовании инструментов, но при той же стоимости и скорости своего предшественника. Новая модель улучшает свою производительность на SWE-bench Verified, бенчмарке кодирования, с 33,4% до 49%, опережая даже модели рассуждений, такие как OpenAI o1-preview.

Все больше компаний используют генеративный ИИ для кодирования. Однако в этой области технология несовершенна. Известно, что код, сгенерированный ИИ, приводит к сбоям, и руководители служб безопасности рассматривают возможность запрета использования этой технологии при разработке ПО.

СМОТРИТЕ: Когда ИИ не достигает цели: почему покупатели технологий сталкиваются с провалами проектов

По данным Anthropic, пользователи Claude 3.5 Sonnet увидели улучшения в действии. GitLab протестировал его для задач DevSecOps и обнаружил, что он обеспечивает до 10% более сильное рассуждение без дополнительной задержки. Лаборатория искусственного интеллекта Cognition также сообщила об улучшениях в кодировании, планировании и решении проблем по сравнению с предыдущей версией.

Claude 3.5 Sonnet доступен сегодня через Anthropic API, Amazon Bedrock и Vertex AI от Google Cloud. Версия без использования компьютера внедряется в приложения Claude.

Claude 3.5 Haiku дешевле, но так же эффективен

Anthropic также выпустила Claude 3.5 Haiku, обновленную версию самой дешевой модели Claude. Haiku обеспечивает более быстрые ответы, а также улучшенную точность инструкций и использование инструментов, что делает его полезным для приложений, ориентированных на пользователя, и создания персонализированного опыта на основе данных.

Haiku соответствует производительности более крупной модели Claude 3 Opus при той же стоимости и схожей скорости предыдущего поколения. Он также превосходит оригинальный Claude 3.5 Sonnet и GPT-4o на SWE-bench Verified с результатом 40,6%.

Claude 3.5 Haiku будет запущен в следующем месяце как модель только с текстовыми подсказками. Ввод изображений станет возможным в будущем.

Глобальный переход к агентам ИИ

Возможность использования компьютера в Claude 3.5 Sonnet выводит модель в сферу агентов ИИ — инструментов, способных выполнять сложные задачи автономно.

«Выбор Anthropic термина «использование компьютера» вместо «агентов» делает эту технологию более доступной для обычных пользователей», — сообщил в электронном письме TechRepublic Яннис Антониу, руководитель отдела данных, аналитики и искусственного интеллекта в консалтинговой компании Lab49.

Агенты заменяют ИИ-пилотов — инструменты, предназначенные для помощи и предоставления рекомендаций пользователю, а не для самостоятельной работы — как обязательные инструменты в бизнесе. По данным Financial Times, Microsoft, Workday и Salesforce недавно поместили агентов в основу своих планов ИИ.

В сентябре Salesforce представила Agentforce — платформу для внедрения генеративного ИИ в таких областях, как поддержка клиентов, обслуживание, продажи или маркетинг.

Арманд Руис, вице-президент IBM по управлению продуктами для платформы ИИ, сообщил делегатам фестиваля SXSW в Австралии на этой неделе, что следующий большой скачок в развитии ИИ откроет «агентскую эру», когда специализированные агенты ИИ будут сотрудничать с людьми для повышения эффективности работы организаций.

«Нам предстоит пройти долгий путь, чтобы ИИ позволил нам выполнять все эти рутинные задачи и делать это надежно, а затем делать это так, чтобы вы могли масштабировать это, а затем вы могли это объяснить и контролировать», — сказал он толпе. «Но мы доберемся туда, и мы доберемся туда быстрее, чем мы думаем».

Агенты ИИ могут даже зайти так далеко, чтобы исключить необходимость человеческого участия в их собственном творении. На прошлой неделе Meta заявила, что выпускает модель ИИ «Self-Taught Evaluator», разработанную для автономной оценки собственной производительности и производительности других систем ИИ, демонстрируя потенциал моделей учиться на собственных ошибках.

Подпишитесь на рассылку Innovation Insider Будьте в курсе последних технологических инноваций, которые меняют мир, включая IoT, 5G, последние новости о телефонах, безопасности, умных городах, ИИ, робототехнике и многом другом. Доставка по вторникам и пятницам Адрес электронной почты Подписываясь на нашу рассылку, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности. Вы можете отписаться в любое время. Подписаться
Подпишитесь на рассылку Innovation Insider Будьте в курсе последних технологических инноваций, которые меняют мир, включая IoT, 5G, последние новости о телефонах, безопасности, умных городах, ИИ, робототехнике и многом другом. Доставка по вторникам и пятницам Адрес электронной почты Подписываясь на нашу рассылку, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности. Вы можете отписаться в любое время. Подписаться

Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE