Роботы Google с искусственным интеллектом учатся на просмотре фильмов – так же, как и все мы

Роботы Google с искусственным интеллектом учатся на просмотре фильмов – так же, как и все мы

12 июля 2024 г.

Команда робототехники Google DeepMind учит роботов учиться так, как это сделал бы человек-стажер: просматривая видео. Команда опубликовала новый документ, демонстрирующий, как Google' RT- Два робота, оснащенные генеративной моделью искусственного интеллекта Gemini 1.5 Pro, могут поглощать информацию из видео, чтобы научиться передвигаться и даже выполнять запросы в пункте назначения.

Благодаря длинному контекстному окну модели Gemini 1.5 Pro , обучение робота как нового стажера возможно. Это окно позволяет ИИ одновременно обрабатывать большие объемы информации. Исследователи снимали видеотур по определенному месту, например, дому или офису. Затем робот будет смотреть видео и изучать окружающую среду. 

Детали в видеотурах позволяют роботу выполнять задачи на основе полученных знаний, используя как вербальную, так и графическую информацию. Это впечатляющий способ показать, как роботы могут взаимодействовать с окружающей средой, напоминая человеческое поведение. Вы можете увидеть, как это работает, в видео ниже, а также примеры различных задач, которые может выполнять робот.

Экспертиза роботов в области искусственного интеллекта

Эти демонстрации также не являются редкостью. В ходе практических испытаний роботы с приводом от Gemini работали на территории площадью 9 000 квадратных футов и успешно выполняли более 50 различных инструкций пользователя с вероятностью успеха 90 процентов. Такой высокий уровень точности открывает множество потенциальных возможностей использования роботов с искусственным интеллектом в реальной жизни: они помогают дома по дому или на работе, выполняя черновую или даже более сложную работу.

Это потому, что один из Более примечательным аспектом модели Gemini 1.5 Pro является ее способность выполнять многоэтапные задачи. Исследование DeepMind показало, что роботы могут решить, как отвечать на вопросы, например, есть ли в наличии конкретный напиток, подойдя к холодильнику, визуально обработав то, что внутри, а затем вернувшись и ответив на вопрос. 

Идея планирования и выполнения всей последовательности действий демонстрирует уровень понимания и исполнения, выходящий за рамки нынешнего стандарта одношаговых заказов для большинства роботов. 

Однако не ожидайте, что этот робот появится в продаже в ближайшее время. Во-первых, обработка каждой инструкции занимает до 30 секунд, что в большинстве случаев намного медленнее, чем просто делать что-то самостоятельно. В хаосе реальных домов и офисов роботу будет гораздо сложнее ориентироваться, чем в контролируемой среде, какой бы продвинутой ни была модель искусственного интеллекта. 

Тем не менее, интеграция моделей искусственного интеллекта, таких как Gemini 1.5 Pro, в робототехнику является частью более крупного шага вперед в этой области. Роботы, оснащенные такими моделями, как Gemini или его конкуренты, могут изменить работу здравоохранения, судоходства и даже уборки.

Запись, опубликованная Google DeepMind (@googledeepmind)

Фотография опубликована пользователем

Вам также может понравиться


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE