Google PaLM-E (ИИ-робот) может видеть и понимать язык

Google PaLM-E (ИИ-робот) может видеть и понимать язык

24 марта 2023 г.

Последние модели искусственного интеллекта, такие как ChatGPT и Midjourney продемонстрировали впечатляющие возможности создания текста и изображений.

Однако существуют также модели, которые специализируются на понимании этих входных данных, например, Vision Transformers (ViT) для изображений и языковая модель Pathways (PaLM) для текста. Эти модели могут интерпретировать и понимать значение изображений и предложений.

Объединение текстовой и графической моделей позволит создать ИИ, способный понимать различные формы данных и понимать почти все.

Однако возможности такой модели на первый взгляд могут показаться ограниченными, поскольку она способна понимать только вещи. Но что, если эту модель интегрировать с роботизированной системой, способной перемещаться в физическом мире? Вот тут и приходит на помощь PaLM-E.

Что такое модель искусственного интеллекта PaLM-E от Google?

Последняя публикация Google, PaLM-E, представляет собой воплощенную мультимодальную языковую модель< /а>.

Это означает, что эта модель может интерпретировать и понимать различные типы данных, включая изображения и текст из моделей ViT и PaLM соответственно, и преобразовывать эту информацию в действия с помощью роботизированной руки.

Подробнее в видео…

https://youtu.be/1RF06BL7VAc?embedable=true&transcript=true


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE