Google запускает Gemini 2.0 с функцией автономной привязки инструментов

Google использует «агентный опыт» при запуске Gemini 2.0 — своего нового флагманского семейства генеративного ИИ, которое, как ожидается, составит конкуренцию ChatGPT с OpenAI o1, GitHub Copilot и Amazon Nova.

Технологический гигант выпустил первую модель Gemini 2.0 Flash 11 декабря для разработчиков по всему миру через API Gemini в Google AI Studio и Vertex AI. Потребители могут ожидать, что Gemini 2.0 повлияет на Google Search и AI Overviews, а ограниченное тестирование начнется на следующей неделе. Публичный запуск запланирован на начало 2025 года.

Через Gemini 2.0 разработчики могут получить доступ к мультимодальному вводу и текстовому выводу, в то время как партнеры раннего доступа могут тестировать преобразование текста в речь и генерацию собственных изображений. Приложение Gemini будет обновлено до Gemini 2.0 Flash «скоро», — заявила Google в пресс-релизе.

Ожидается, что в январе последует массовая доступность и появление дополнительных размеров моделей, таких как базовая модель Gemini 2.0.

Что такое Близнецы 2.0?

Gemini 2.0 — это мультимодальная генеративная модель ИИ, работающая на оборудовании Trillium от Google. Она разработана для того, чтобы сделать онлайн-задачи проще и понятнее, помогая суммировать информацию, выполнять веб-поиск и даже взаимодействовать с инструментами или приложениями более естественно.

Google отметила, что Gemini 2.0 Flash в два раза быстрее своего предшественника 1.5 Pro и превосходит его в тестах производительности ИИ, таких как MMLU-PRO и LiveCodeBench.

«Если Gemini 1.0 был направлен на организацию и понимание информации, то Gemini 2.0 призван сделать ее гораздо более полезной», — заявил в своем заявлении генеральный директор Google Сундар Пичаи.

Что отличает Gemini 2.0, так это его агентские возможности. Пичаи описал эти возможности как возможность модели «понимать больше о мире вокруг вас, думать на несколько шагов вперед и действовать от вашего имени под вашим контролем».

Google также подчеркнул, что Gemini 2.0 отличается следующими особенностями:

Мультимодальная обработка. Способность понимать длинные книги или широкие полосы веба. Вызов функций. «Использование собственных инструментов». «Сложное выполнение инструкций и планирование».

Использование собственных инструментов позволяет ИИ включать такие инструменты, как Google Search и выполнение кода для выполнения автономных действий. На практике это иногда выглядит как Project Astra от Google — приложение для Android, которое сейчас тестируется и использует камеру телефона и рассуждения Gemini для ответа на вопросы о мире в реальном времени. Project Astra может анализировать до 10 минут видео за раз.

Google также анонсирует дополнительные проекты и прототипы

Проект Маринер

Еще одним доказательством концепции является Project Mariner, экспериментальное расширение Chrome, демонстрирующее усилия Google по обеспечению Gemini возможности чтения экранов браузера. Пользователи могут попросить его резюмировать веб-страницы или совершить покупку.

«Пока еще рано говорить об этом, но проект Mariner показывает, что технически становится возможным осуществлять навигацию в браузере, хотя сегодня это не всегда точно и медленно для выполнения задач. Со временем ситуация будет быстро улучшаться», — написали в пресс-релизе Демис Хассабис, генеральный директор Google DeepMind, и Корай Кавукчуоглу, технический директор Google DeepMind.

СМОТРЕТЬ: В начале декабря Google также представила специализированные модели искусственного интеллекта для генерации изображений и видео.

Глубокие исследования

Deep Research, доступный по подписке Gemini Advanced, — это экспериментальная модель, подключенная к сети. Она предназначена для создания планов и планов исследований для аспирантов, ученых или предпринимателей. Инструмент ищет в сети тему по вашему выбору, представляет план исследования для одобрения или изменения, а затем анализирует существующую работу.

Жюль помощник разработчика

Google также анонсировала новый инструмент разработчика под названием Jules, помощник по кодированию на базе Gemini 2.0 Flash. Jules находится в GitHub и может писать код, исправлять ошибки, а также создавать и выполнять многошаговые планы. Jules доступен ограниченному кругу тестировщиков сегодня. Google ожидает расширенной доступности в начале 2025 года.

Google готовится к киберугрозам

Google также отметила, что знает, что Project Mariner, в частности, может быть богатым охотничьим угодьем для атак с использованием быстрых инъекций. Компания заявила, что работает над созданием защитных барьеров от попыток фишинга и мошенничества, когда злоумышленники могут вставлять инструкции ИИ в электронные письма, веб-сайты или документы.

Подпишитесь на рассылку Innovation Insider Будьте в курсе последних технологических инноваций, которые меняют мир, включая IoT, 5G, последние новости о телефонах, безопасности, умных городах, ИИ, робототехнике и многом другом. Доставка по вторникам и пятницам Адрес электронной почты Подписываясь на нашу рассылку, вы соглашаетесь с нашими Условиями использования и Политикой конфиденциальности. Вы можете отписаться в любое время. Подписаться