Забудьте о Соре, это видео с искусственным интеллектом, которое поразит вас и, возможно, напугает.

Забудьте о Соре, это видео с искусственным интеллектом, которое поразит вас и, возможно, напугает.

14 марта 2024 г.

Разработка роботов-гуманоидов на протяжении большей части двух десятилетий продвигалась черепашьими темпами, но благодаря сотрудничеству между Рисунок AI и OpenAI происходит быстрое ускорение, в результате чего получился самый потрясающий фрагмент настоящего видео о роботах-гуманоидах. я никогда не видел.

В среду стартап-робототехника Fig AI выпустил видеообновление (см. ниже) своего Рисунок 01 робот, использующий новую модель визуального языка (VLM), которая каким-то образом превратила бота из довольно неинтересного автомата в полноценного научно-фантастического бота, приближающегося к C-3PO- возможности уровня.

На видео Фигура 01 стоит за столом, накрытым тарелкой, яблоком и чашкой. Слева — сушилка. Человек стоит перед роботом и спрашивает робота: «Рисунок 01, что ты сейчас видишь?»

Через несколько секунд Рисунок 01 отвечает удивительно человеческим голосом (есть без лица, просто анимированный свет, который движется синхронно с голосом), детализируя все на столе и детали человека, стоящего перед ним.

"Это круто", - подумал я.

p>

Затем мужчина спрашивает: «Эй, можно мне что-нибудь поесть?»

Рисунок 01 отвечает: «Конечно», а затем ловким плавным движением поднимает яблоко. и протягивает парню.

«Ух ты», — подумал я.

Затем мужчина высыпает скомканный мусор из мусорного ведра перед Фигурой 01, спрашивая: «Можете ли вы объясни, почему ты сделал то, что только что сделал, пока собирал этот мусор?"

Рисунок 01, не теряя времени, объясняет свои доводы и кладет бумагу обратно в мусорное ведро. «Итак, я дал тебе яблоко, потому что это единственный съедобный предмет, который я мог дать тебе со стола».

Я подумал: «Этого не может быть».

< p>Однако, по крайней мере, согласно рисунку AI.

Речь в речь

В своем пресс-релизе компания объяснила, что Рисунок 01 участвует в рассуждениях «речь-в-речь», используя предварительно обученную мультимодальную модель OpenAI, VLM, для понимания изображений и текстов, и полагается на весь голосовой разговор для выработки ответов. . Это отличается, скажем, от GPT-4 OpenAI. , в котором основное внимание уделяется письменным подсказкам.

Он также использует то, что компания называет «обученными низкоуровневыми бимануальными манипуляциями». Система сопоставляет точные калибровки изображения (вплоть до уровня пикселей) со своей нейронной сетью для управления движением. «Эти сети принимают встроенные изображения с частотой 10 Гц и генерируют действия с 24 степенями свободы (позы запястий и углы суставов пальцев) на частоте 200 Гц», — написала в своем релизе рисунок AI.

Компания утверждает, что каждое поведение в Видео основано на обучении системы и не управляется телеуправлением, то есть никто за кадром не управляет Фигурой 01.

Не видя Фигуру 01 лично и не задавая свои собственные вопросы, это сложно для проверки этих утверждений. Существует вероятность того, что Рисунок 01 выполняет эту процедуру не в первый раз. Это мог быть 100-й раз, что может объяснить его скорость и плавность.

Или, может быть, это на 100% реально, и в этом случае — вау. Просто вау.

Вам также может понравиться


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE