Исследователи объединяют прикосновение и язык, чтобы повысить роботизированные рассуждения

Исследователи объединяют прикосновение и язык, чтобы повысить роботизированные рассуждения

13 июня 2025 г.

Авторы:

(1) Самсон Ю, кафедра компьютерных наук, Национальный университет Сингапура (samson.yu@u.nus.edu);

(2) Кельвин Лин. Департамент компьютерных наук, Национальный университет Сингапура;

(3) с тревогой Сяо, кафедра компьютерных наук, Национальный университет Сингапура;

(4) Цзяфей Дуан, Вашингтонский университет;

(5) Гарольд Сох, кафедра компьютерных наук, Национальный университет Сингапура и Институт интеллектуальных систем NUS (harold@comp.nus.edu.sg).

  • Аннотация и I. Введение
  • II Связанная работа
  • Iii. Физиклеар - тактильное и физическое понимание обучения и оценки
  • IV Осьминог-физические рассуждения с осью осьминоги
  • V. Экспериментальная установка
  • VI Экспериментальные результаты
  • VII. Абляции
  • VIII. Заключение и обсуждение, подтверждения и ссылки
    • Приложение для осьминоги: рассуждения о свойстве объекта с большими моделями тактильно-языка
      • Приложение A: сведения об аннотации
      • Приложение B: сведения о объекте
      • Приложение C: Статистика недвижимости
      • Приложение D: образец статистики видео
      • Приложение E: Анализ энкодера
      • Приложение F: PG-Instructblip Avocado Прогнозирование имущества.

Абстрактный- Физические рассуждения важны для эффективных манипуляций с роботами. Недавняя работа изучала как видение, так и языковые методы для физических рассуждений; Vision может раскрыть информацию об объектах в среде, а язык служит средой абстракции и общения для дополнительного контекста. Хотя эти работы продемонстрировали успех в различных задачах физических рассуждений, они ограничены физическими свойствами, которые могут быть выведены из визуальных или языковых входов. В этой работе мы исследуем объединение тактильного восприятия с языком, которое позволяет воплощенным системам получать физические свойства посредством взаимодействия и применять обоснование здравого смысла. Мы вкладываем новую физику -карты, которая включает в себя как задачи, связанные с физическими/рассуждениями о свойствах, так и аннотированные тактильные видео, полученные с использованием тактильного датчика Gelsight. Затем мы вводим Octopi, систему, которая использует как тактильное представление, так и модели больших зрений для прогнозирования и разум о тактильных входах с минимальной точной настройкой языка. Наши оценки по физиклеарной области показывают, что осьминоги могут эффективно использовать промежуточные прогнозы физического свойства, чтобы улучшить свои характеристики по различным тактильным задачам. Физиклеар и осьминоги доступны наhttps://github.com/clear-nus/octopiПолем

I. Введение

Эта статья расширяет LVLMS, чтобы иметь чувство прикосновения. Мы устанавливаем, что включение тактильной модальности в LVLMS позволит улучшить физические рассуждения в реальных средах. В качестве примера, рис. 1 показывает, как знание здравого смысла применяется вместе с тактильной информацией для выполнения новой физической задачи. Здесь робот использует свои тактильные входы вместе со знанием здравомыслия LLM (которые зрелые авокадо мягкие), чтобы правильно выбрать спелый авокадо. Мы используем визуальные датчики, то есть Gelsight [60], который предоставляет кадры изображений, которые раскрывают физические свойства объекта, такие как текстура и твердость [59]. Тем не менее, остается значительный доменный разрыв между естественными изображениями, которые обучаются типичными LVLMS, и тактильными данными.

Fig. 1. Avocado ripeness selection by combining tactile information with commonsense knowledge. Using inputs from its tactile sensor, OCTOPI identifies the left avocado as softer. Using commonsense reasoning, OCTOPI infers that it is ripe and fulfils the user’s request.

Чтобы преодолеть этот пробел, мы вносят свой вклад в физический набор данных, который включает в себя изображения гельза на различных объектах реального мира, а также этикетки объектов и частичные аннотации. Физикарные дополнения существующих тактильных наборов данных [59, 61, 18, 56, 19], поскольку они предоставляют три аннотации физического свойства, в частности, твердость, шероховатость и неровность, которые использовались в предыдущих исследованиях [43, 20, 38, 10, 5, 26], и могут быть потенциально определены из данных Gelsight. Physiclear также включает в себя набор обучения и оценки, включающий пять задач рассуждений, которые могут служить эталоном для исследовательского сообщества.

Используя физиклеар, мы разрабатываем осьминоги (понимание объекта с тактильными наблюдениями для физического интеллекта). Octopi-это основанная на ламе [49, 50] LVLM (Vicuna [11]), оснащенный тактильным энкодером на основе клипов [39], чьи представления были выровнены с помощью проекции. В экспериментах мы показываем, что осьминоги способны использовать свою тактильную модальность для прогнозирования свойств объекта и разум о сценариях, включая зрелость авокадо.

Fig. 2. PHYSICLEAR and OCTOPI (with key contributions starred). We collect tactile videos for everyday household objects by hand with two exploratory procedures: pressing and rotation. The videos are annotated by three annotators for three physical properties: hardness, roughness and bumpiness. PHYSICLEAR leverages the videos and annotations for five language-driven physical description and understanding tasks. OCTOPI is a LVLM fine-tuned on PHYSICLEAR for tactile-grounded physical understanding and reasoning.

TABLE I. Physical Property Details. The physical object properties examined, along with their descriptions and semantic categories.

TABLE II. GelSight Dataset Comparisons. PHYSICLEAR provides physical property labels for tactile descriptions and physical reasoning across three physical properties. We further compare against existing datasets across three diversity measures. Property diversity refers to whether there are objects in the dataset that vary across the three properties we selected: hardness, roughness and bumpiness. Object diversity indicates whether there is more than one type of object in the dataset. Material diversity indicates the number of different materials in the dataset.

ВкладПолем Таким образом, эта статья вносит следующий ключевой вклад:

• Новый набор данных Gelsight, физиклеар, который демонстрирует разнообразие недвижимости, разнообразие объектов и материальное разнообразие для отдельных физических свойств.

• Octopi, структура для физических рассуждений, которая использует тактильные датчики на основе зрения и возможности рассуждений здравого смысла.

• Сопутствующий набор обучения и оценки, охватывающий пять задач и базовые результаты с использованием осьминоги.

Мы надеемся, что физиклеарные и осьминоги будут стимулировать исследования в области физических рассуждений с поддержкой тактильной поддержки для воплощенных систем ИИ [14].

Эта статья естьДоступно на ArxivПод CC по лицензии 4.0.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE