
Исследователи объединяют прикосновение и язык, чтобы повысить роботизированные рассуждения
13 июня 2025 г.Авторы:
(1) Самсон Ю, кафедра компьютерных наук, Национальный университет Сингапура (samson.yu@u.nus.edu);
(2) Кельвин Лин. Департамент компьютерных наук, Национальный университет Сингапура;
(3) с тревогой Сяо, кафедра компьютерных наук, Национальный университет Сингапура;
(4) Цзяфей Дуан, Вашингтонский университет;
(5) Гарольд Сох, кафедра компьютерных наук, Национальный университет Сингапура и Институт интеллектуальных систем NUS (harold@comp.nus.edu.sg).
Таблица ссылок
- Аннотация и I. Введение
- II Связанная работа
- Iii. Физиклеар - тактильное и физическое понимание обучения и оценки
- IV Осьминог-физические рассуждения с осью осьминоги
- V. Экспериментальная установка
- VI Экспериментальные результаты
- VII. Абляции
- VIII. Заключение и обсуждение, подтверждения и ссылки
- Приложение для осьминоги: рассуждения о свойстве объекта с большими моделями тактильно-языка
- Приложение A: сведения об аннотации
- Приложение B: сведения о объекте
- Приложение C: Статистика недвижимости
- Приложение D: образец статистики видео
- Приложение E: Анализ энкодера
- Приложение F: PG-Instructblip Avocado Прогнозирование имущества.
- Приложение для осьминоги: рассуждения о свойстве объекта с большими моделями тактильно-языка
Абстрактный- Физические рассуждения важны для эффективных манипуляций с роботами. Недавняя работа изучала как видение, так и языковые методы для физических рассуждений; Vision может раскрыть информацию об объектах в среде, а язык служит средой абстракции и общения для дополнительного контекста. Хотя эти работы продемонстрировали успех в различных задачах физических рассуждений, они ограничены физическими свойствами, которые могут быть выведены из визуальных или языковых входов. В этой работе мы исследуем объединение тактильного восприятия с языком, которое позволяет воплощенным системам получать физические свойства посредством взаимодействия и применять обоснование здравого смысла. Мы вкладываем новую физику -карты, которая включает в себя как задачи, связанные с физическими/рассуждениями о свойствах, так и аннотированные тактильные видео, полученные с использованием тактильного датчика Gelsight. Затем мы вводим Octopi, систему, которая использует как тактильное представление, так и модели больших зрений для прогнозирования и разум о тактильных входах с минимальной точной настройкой языка. Наши оценки по физиклеарной области показывают, что осьминоги могут эффективно использовать промежуточные прогнозы физического свойства, чтобы улучшить свои характеристики по различным тактильным задачам. Физиклеар и осьминоги доступны наhttps://github.com/clear-nus/octopiПолем
I. Введение
Эта статья расширяет LVLMS, чтобы иметь чувство прикосновения. Мы устанавливаем, что включение тактильной модальности в LVLMS позволит улучшить физические рассуждения в реальных средах. В качестве примера, рис. 1 показывает, как знание здравого смысла применяется вместе с тактильной информацией для выполнения новой физической задачи. Здесь робот использует свои тактильные входы вместе со знанием здравомыслия LLM (которые зрелые авокадо мягкие), чтобы правильно выбрать спелый авокадо. Мы используем визуальные датчики, то есть Gelsight [60], который предоставляет кадры изображений, которые раскрывают физические свойства объекта, такие как текстура и твердость [59]. Тем не менее, остается значительный доменный разрыв между естественными изображениями, которые обучаются типичными LVLMS, и тактильными данными.
Чтобы преодолеть этот пробел, мы вносят свой вклад в физический набор данных, который включает в себя изображения гельза на различных объектах реального мира, а также этикетки объектов и частичные аннотации. Физикарные дополнения существующих тактильных наборов данных [59, 61, 18, 56, 19], поскольку они предоставляют три аннотации физического свойства, в частности, твердость, шероховатость и неровность, которые использовались в предыдущих исследованиях [43, 20, 38, 10, 5, 26], и могут быть потенциально определены из данных Gelsight. Physiclear также включает в себя набор обучения и оценки, включающий пять задач рассуждений, которые могут служить эталоном для исследовательского сообщества.
Используя физиклеар, мы разрабатываем осьминоги (понимание объекта с тактильными наблюдениями для физического интеллекта). Octopi-это основанная на ламе [49, 50] LVLM (Vicuna [11]), оснащенный тактильным энкодером на основе клипов [39], чьи представления были выровнены с помощью проекции. В экспериментах мы показываем, что осьминоги способны использовать свою тактильную модальность для прогнозирования свойств объекта и разум о сценариях, включая зрелость авокадо.
ВкладПолем Таким образом, эта статья вносит следующий ключевой вклад:
• Новый набор данных Gelsight, физиклеар, который демонстрирует разнообразие недвижимости, разнообразие объектов и материальное разнообразие для отдельных физических свойств.
• Octopi, структура для физических рассуждений, которая использует тактильные датчики на основе зрения и возможности рассуждений здравого смысла.
• Сопутствующий набор обучения и оценки, охватывающий пять задач и базовые результаты с использованием осьминоги.
Мы надеемся, что физиклеарные и осьминоги будут стимулировать исследования в области физических рассуждений с поддержкой тактильной поддержки для воплощенных систем ИИ [14].
Эта статья естьДоступно на ArxivПод CC по лицензии 4.0.
Оригинал