Исследователи объединяют прикосновение и язык, чтобы повысить роботизированные рассуждения

13 июня 2025 г.

Авторы:

(1) Самсон Ю, кафедра компьютерных наук, Национальный университет Сингапура (samson.yu@u.nus.edu);

(2) Кельвин Лин. Департамент компьютерных наук, Национальный университет Сингапура;

(3) с тревогой Сяо, кафедра компьютерных наук, Национальный университет Сингапура;

(4) Цзяфей Дуан, Вашингтонский университет;

(5) Гарольд Сох, кафедра компьютерных наук, Национальный университет Сингапура и Институт интеллектуальных систем NUS (harold@comp.nus.edu.sg).

Таблица ссылок

Аннотация и I. Введение
II Связанная работа
Iii. Физиклеар - тактильное и физическое понимание обучения и оценки
IV Осьминог-физические рассуждения с осью осьминоги
V. Экспериментальная установка
VI Экспериментальные результаты
VII. Абляции
VIII. Заключение и обсуждение, подтверждения и ссылки
- Приложение для осьминоги: рассуждения о свойстве объекта с большими моделями тактильно-языка
  - Приложение A: сведения об аннотации
  - Приложение B: сведения о объекте
  - Приложение C: Статистика недвижимости
  - Приложение D: образец статистики видео
  - Приложение E: Анализ энкодера
  - Приложение F: PG-Instructblip Avocado Прогнозирование имущества.

Абстрактный- Физические рассуждения важны для эффективных манипуляций с роботами. Недавняя работа изучала как видение, так и языковые методы для физических рассуждений; Vision может раскрыть информацию об объектах в среде, а язык служит средой абстракции и общения для дополнительного контекста. Хотя эти работы продемонстрировали успех в различных задачах физических рассуждений, они ограничены физическими свойствами, которые могут быть выведены из визуальных или языковых входов. В этой работе мы исследуем объединение тактильного восприятия с языком, которое позволяет воплощенным системам получать физические свойства посредством взаимодействия и применять обоснование здравого смысла. Мы вкладываем новую физику -карты, которая включает в себя как задачи, связанные с физическими/рассуждениями о свойствах, так и аннотированные тактильные видео, полученные с использованием тактильного датчика Gelsight. Затем мы вводим Octopi, систему, которая использует как тактильное представление, так и модели больших зрений для прогнозирования и разум о тактильных входах с минимальной точной настройкой языка. Наши оценки по физиклеарной области показывают, что осьминоги могут эффективно использовать промежуточные прогнозы физического свойства, чтобы улучшить свои характеристики по различным тактильным задачам. Физиклеар и осьминоги доступны наhttps://github.com/clear-nus/octopiПолем

I. Введение

Эта статья расширяет LVLMS, чтобы иметь чувство прикосновения. Мы устанавливаем, что включение тактильной модальности в LVLMS позволит улучшить физические рассуждения в реальных средах. В качестве примера, рис. 1 показывает, как знание здравого смысла применяется вместе с тактильной информацией для выполнения новой физической задачи. Здесь робот использует свои тактильные входы вместе со знанием здравомыслия LLM (которые зрелые авокадо мягкие), чтобы правильно выбрать спелый авокадо. Мы используем визуальные датчики, то есть Gelsight [60], который предоставляет кадры изображений, которые раскрывают физические свойства объекта, такие как текстура и твердость [59]. Тем не менее, остается значительный доменный разрыв между естественными изображениями, которые обучаются типичными LVLMS, и тактильными данными.

Fig. 1. Avocado ripeness selection by combining tactile information with commonsense knowledge. Using inputs from its tactile sensor, OCTOPI identifies the left avocado as softer. Using commonsense reasoning, OCTOPI infers that it is ripe and fulfils the user’s request.

Чтобы преодолеть этот пробел, мы вносят свой вклад в физический набор данных, который включает в себя изображения гельза на различных объектах реального мира, а также этикетки объектов и частичные аннотации. Физикарные дополнения существующих тактильных наборов данных [59, 61, 18, 56, 19], поскольку они предоставляют три аннотации физического свойства, в частности, твердость, шероховатость и неровность, которые использовались в предыдущих исследованиях [43, 20, 38, 10, 5, 26], и могут быть потенциально определены из данных Gelsight. Physiclear также включает в себя набор обучения и оценки, включающий пять задач рассуждений, которые могут служить эталоном для исследовательского сообщества.

Используя физиклеар, мы разрабатываем осьминоги (понимание объекта с тактильными наблюдениями для физического интеллекта). Octopi-это основанная на ламе [49, 50] LVLM (Vicuna [11]), оснащенный тактильным энкодером на основе клипов [39], чьи представления были выровнены с помощью проекции. В экспериментах мы показываем, что осьминоги способны использовать свою тактильную модальность для прогнозирования свойств объекта и разум о сценариях, включая зрелость авокадо.

TABLE I. Physical Property Details. The physical object properties examined, along with their descriptions and semantic categories.

ВкладПолем Таким образом, эта статья вносит следующий ключевой вклад:

• Новый набор данных Gelsight, физиклеар, который демонстрирует разнообразие недвижимости, разнообразие объектов и материальное разнообразие для отдельных физических свойств.

• Octopi, структура для физических рассуждений, которая использует тактильные датчики на основе зрения и возможности рассуждений здравого смысла.

• Сопутствующий набор обучения и оценки, охватывающий пять задач и базовые результаты с использованием осьминоги.

Мы надеемся, что физиклеарные и осьминоги будут стимулировать исследования в области физических рассуждений с поддержкой тактильной поддержки для воплощенных систем ИИ [14].

Эта статья естьДоступно на ArxivПод CC по лицензии 4.0.

Оригинал

Исследователи объединяют прикосновение и язык, чтобы повысить роботизированные рассуждения

Таблица ссылок

I. Введение

🔥 Популярное на этой неделе

Marvel’s Wolverine: все, что мы знаем об эксклюзиве для PS5 на данный момент

Новое обновление Xbox Series X только что вышло и может сэкономить вам деньги

8 проектов с открытым исходным кодом, которые помогут вашему бизнесу работать эффективно

Новые фильмы Netflix 2023 года: самые большие оригинальные фильмы, выходящие на стример

Новые фильмы 2023 года: самые крупные предстоящие релизы скоро появятся в кинотеатрах

⭐ Самое популярное

Marvel’s Wolverine: все, что мы знаем об эксклюзиве для PS5 на данный момент

Новые фильмы 2023 года: самые крупные предстоящие релизы скоро появятся в кинотеатрах

8 проектов с открытым исходным кодом, которые помогут вашему бизнесу работать эффективно

Новые фильмы Netflix 2023 года: самые большие оригинальные фильмы, выходящие на стример

Новое обновление Xbox Series X только что вышло и может сэкономить вам деньги

Categories