machine-learning robot-manipulation large-tactile-language-models physiclear-dataset gelsight-sensor object-property-reasoning embodied-ai large-vision-language-model octopi-framework

Этот ИИ знает, что он трогает - потому что ученые настроили свои чувства

13 июня 2025 г.

Авторы:

(1) Самсон Ю, кафедра компьютерных наук, Национальный университет Сингапура (samson.yu@u.nus.edu);

(2) Кельвин Лин. Департамент компьютерных наук, Национальный университет Сингапура;

(3) с тревогой Сяо, кафедра компьютерных наук, Национальный университет Сингапура;

(4) Цзяфей Дуан, Вашингтонский университет;

(5) Гарольд Сох, кафедра компьютерных наук, Национальный университет Сингапура и Институт интеллектуальных систем NUS (harold@comp.nus.edu.sg).

Таблица ссылок

Аннотация и I. Введение
II Связанная работа
Iii. Физиклеар - тактильное и физическое понимание обучения и оценки
IV Осьминог-физические рассуждения с осью осьминоги
V. Экспериментальная установка
VI Экспериментальные результаты
VII. Абляции
VIII. Заключение и обсуждение, подтверждения и ссылки
- Приложение для осьминоги: рассуждения о свойстве объекта с большими моделями тактильно-языка
  - Приложение A: сведения об аннотации
  - Приложение B: сведения о объекте
  - Приложение C: Статистика недвижимости
  - Приложение D: образец статистики видео
  - Приложение E: Анализ энкодера
  - Приложение F: PG-Instructblip Avocado Прогнозирование имущества.

VII. Абляции

В этом разделе мы описываем исследования абляции для изучения (i) влияния изученных представлений энкодера на прогнозирование физического свойства и (ii) влияние конечного количества данных о современном положении на физические рассуждения. Для следующих разделов мы сообщаем о точности теста на невидимые объекты.

А. Абляция: влияние тонкой настройки энкодера

Мы использовали тактильные входные данные на основе зрения в этой работе, и модели фонда, предварительно подготовленные Vision (то есть CLIP), показали впечатляющую производительность в задачах зрения. Чтобы проверить, улучшает ли дополнительная тонкая настройка предварительно обученные представления энкодера клипа для прогнозирования физического свойства с использованием тактильных изображений, мы провели эксперименты с абляцией. Мы сравнили производительность двух осьминог-версий-одна обученная с помощью готового энкодера зажима, а другая тренировалась с помощью энкодера зажима.

TABLE XI. CLIP Fine-tuning Ablation Results on Physical Understanding Tasks. Using a fine-tuned CLIP improves OCTOPI’s performance in physical understanding tasks for both OCTOPI-7b and OCTOPI-13b.

TABLE XII. End-to-end Fine-tuning Physical Property Prediction Result Comparisons. End-to-end fine-tuning with LoRA generally improves physical property prediction accuracies.

В таблице x результаты описания свойства объекта показывают, что осьминодированный энкодер, обученный Octopi-7B, обучен с тонкой настройкой зажима, обученного с помощью немодифицированного энкодера зажима на 7,90% при комбинированной точности. Аналогичным образом, осьминоги-13b с тонким настройкой визуального энкодера зажима работают лучше в комбинированных, шероховатости и неровности, при этом комбинированная точность на 5,26% выше. Это говорит о том, что тонкий клип обычно улучшает его ученые представления о прогнозировании физического свойства в сквозном LVLM.

Мы также проверили обе версии осьминога на физическом понимании задач с результатами в таблице XI. Для Octopi-7B версия, обученная с помощью тонкого настраиваемого энкодера клипа, работает лучше в трех физических задачах (на 17,72% на ПК, 32,00% на PSS, 8,03% на POM). Аналогичным образом, Octopi-13b с тонким настраиваемым зажимом Encoder имеет лучшую производительность для физических понимания задач, что говорит о том, что создание, как правило, помогает физическому пониманию и физическим рассуждениям. Дальнейший анализ энкодера можно найти в Приложении E.

B. абляция: влияние сквозной тонкой настройки

В таблице XII показана производительность Octopi в задаче прогнозирования свойств до и после сквозной точной настройки с Лорой. Как для осьминога, так и для осьминога-13B, тонкие варианты обычно выполнялись лучше. Мы видим резкие улучшения для Octopi-13b с улучшениями по всем свойствам. Наши результаты показывают, что сквозная точная настройка повышает точность прогнозирования физического свойства. Подобно задаче прогнозирования свойств, мы наблюдали, что тонкая настройка с Лорой также улучшает эффективность осьминога по физическим пониманию задач (Таблица XIII).

TABLE XIII. End-to-end Fine-tuning Physical Understanding Result Comparisons. End-to-end fine-tuning for physical understanding tasks significantly improves physical understanding for both OCTOPI7b and OCTOPI-13b.

Эта статья естьДоступно на ArxivПод CC по лицензии 4.0.

Оригинал

Этот ИИ знает, что он трогает - потому что ученые настроили свои чувства

Таблица ссылок

VII. Абляции

Recent Post

Исследование Тайваня считает, что ИИ может помочь аудиторам с выборкой больших данных

Тайваньское исследование картирует глобальный разрыв в исследованиях в выборе аудита на основе искусственного интеллекта

Наивный байеса превосходит конкурентов в области аудита финансовых, текстовых и сетевых данных

Как ИИ (на самом деле) обновляет рынок труда

Почему данные лежат (и ваша модель тоже): любопытный случай парадокса Симпсона

Categories