Google PaLM-E (ИИ-робот) может видеть и понимать язык
24 марта 2023 г.Последние модели искусственного интеллекта, такие как ChatGPT и Midjourney продемонстрировали впечатляющие возможности создания текста и изображений.
Однако существуют также модели, которые специализируются на понимании этих входных данных, например, Vision Transformers (ViT) для изображений и языковая модель Pathways (PaLM) для текста. Эти модели могут интерпретировать и понимать значение изображений и предложений.
Объединение текстовой и графической моделей позволит создать ИИ, способный понимать различные формы данных и понимать почти все.
Однако возможности такой модели на первый взгляд могут показаться ограниченными, поскольку она способна понимать только вещи. Но что, если эту модель интегрировать с роботизированной системой, способной перемещаться в физическом мире? Вот тут и приходит на помощь PaLM-E.
Что такое модель искусственного интеллекта PaLM-E от Google?
Последняя публикация Google, PaLM-E, представляет собой воплощенную мультимодальную языковую модель< /а>.
Это означает, что эта модель может интерпретировать и понимать различные типы данных, включая изображения и текст из моделей ViT и PaLM соответственно, и преобразовывать эту информацию в действия с помощью роботизированной руки.
Подробнее в видео…
https://youtu.be/1RF06BL7VAc?embedable=true&transcript=true р>
Оригинал