ИИ изучает здравый смысл от прикосновения, а не только видение

ИИ изучает здравый смысл от прикосновения, а не только видение

13 июня 2025 г.

Авторы:

(1) Самсон Ю, кафедра компьютерных наук, Национальный университет Сингапура (samson.yu@u.nus.edu);

(2) Кельвин Лин. Департамент компьютерных наук, Национальный университет Сингапура;

(3) с тревогой Сяо, кафедра компьютерных наук, Национальный университет Сингапура;

(4) Цзяфей Дуан, Вашингтонский университет;

(5) Гарольд Сох, кафедра компьютерных наук, Национальный университет Сингапура и Институт интеллектуальных систем NUS (harold@comp.nus.edu.sg).

  • Аннотация и I. Введение
  • II Связанная работа
  • Iii. Физиклеар - тактильное и физическое понимание обучения и оценки
  • IV Осьминог-физические рассуждения с осью осьминоги
  • V. Экспериментальная установка
  • VI Экспериментальные результаты
  • VII. Абляции
  • VIII. Заключение и обсуждение, подтверждения и ссылки
    • Приложение для осьминоги: рассуждения о свойстве объекта с большими моделями тактильно-языка
      • Приложение A: сведения об аннотации
      • Приложение B: сведения о объекте
      • Приложение C: Статистика недвижимости
      • Приложение D: образец статистики видео
      • Приложение E: Анализ энкодера
      • Приложение F: PG-Instructblip Avocado Прогнозирование имущества.

VI Экспериментальные результаты

Чтобы решить вышеупомянутые вопросы, мы оценили осьминоги, используя (i) точность физического понимания задач в тестовом наборе физиклеар, (ii) точность в задачах рассуждения сценариев, (iii) скорость успеха задачи на реальном роботе и (iv) точность прогнозирования свойств на невидимые объекты. Мы проверили две версии Octopi, Octopi-7b и Octopi-13b, которые используют Vicuna7b v1.5 и Vicuna-13b v1.5 в качестве их LLMS соответственно.

TABLE VII. Results on PHYSICLEAR Scenario Reasoning Tasks. During scenario reasoning, we do not provide ground-truth property descriptions. Our experiments show that leveraging object properties significantly improves scenario reasoning for OCTOPI.

A. Тактильно заземленное физическое понимание с описаниями объекта

Во время выравнивания тактильной функции и сквозной тонкой настройки мы обучали осьминоги со сравнением задач (то есть ПК, PSS и POM), чтобы выровнять его физическое понимание наших физических свойств и объектов с нашими этикетками. Мы оценили физическое понимание Octopi с теми же одностадийными подсказками, которые использовались во время обучения, и на 500 парами вопросов в общей сложности в трех задачах. Результаты физического понимания невидимых испытательных объектов показаны в таблице VI.

Наши результаты показывают, что как Octopi-7B, так и Octopi-13b хорошо выполняют все три физических задачи, когда они обучены прогнозировать описания свойств. Используя описания физических свойств, осьминог-7b достигает точности 48,10% на ПК, 74,67% на PSS и 44,39% на POM. Octopi13b превосходит Octopi-7B на 6,96% на ПК, 9,33% на PSS и 16,04% на POM. Это говорит о том, что физическое понимание осьминога значительно улучшается с размером LLM.

Кроме того, мы исследовали влияние использования описаний физических свойств путем тонкой настройки как осьминога, так и Octopi13b на задачи физического понимания без промежуточных прогнозов физического свойства. Мы обнаружили, что прогнозы, основанные на свойствах объектов, в частности, улучшают физическое понимание как в осьминог-7B, так и в Octopi-13B.

Б. Сценарий рассуждения

Мы оценили полезность наших категорий физической собственности, проверив, как Octopi может рассуждать о повседневных сценариях, используя физические свойства. Для справки, различные вопросы сценария приведены в таблице V с подсказками, показанными в таблице IV.

Наши результаты суммированы в таблице VII. Как для Octopi7b, так и для Octopi-13b, включая свойство объекта значительно повышает производительность, что подтверждает нашу общую гипотезу о том, что использование этих свойств полезно для этих задач. Интересно, что мы заметили, что модель 7b незначительно превзошла модель 13B.

Мы предоставляем два качественных примера, чтобы показать, что осьминоги-13B эффективно выполняют физические рассуждения. В первой задаче мы предоставляем тактильное видео о шаке сырого риса и сначала указали его описать тактильное видео. Затем мы выполняем инструкцию в Octopi-13b, чтобы определить, не состоит ли рис. Octopi-13b способен рассуждать, что совок риса нерешит из-за ее шероховатой поверхности, как показано на рис. 4.

Затем мы дали Octopi -13b два тактильных видео, соответствующих двум разным частям одной и той же зубной щетки - ручка и щетинки. Порудно описать оба объекта, используя

Fig. 4. Rice (Cooked v.s. Uncooked) Reasoning. OCTOPI-13b is prompted to reason about whether a scoop of rice is more likely to be cooked or uncooked based on a tactile video of a scoop on uncooked rice. It reasons about the rice state correctly without being trained to do so.

Fig. 5. Toothbrush Part Reasoning. Given a tactile video of a toothbrush’s handle and the same toothbrush’s bristles, OCTOPI-13b is prompted to reason which tactile readings belong to the handle and which belongs to the bristles.

физические свойства. Затем мы поручим определить, какое тактильное видео принадлежит каждой части объекта, используя физические свойства. На рис. 5 показано, что осьминоги-13b способны правильно рассуждать о совпадении объекта свойства.

C. Классификация зрелости авокадо

Чтобы оценить полезность осьминога как тактильную систему физических мышлений для задач реального мира, мы интегрировали два гели-датчика на роботе Франка Эмика Панда и использовали его для классификации зрелости авокадо. В то время как спелые авокадо обычно появляются в оттенке коричневого, их зрелость трудно определить, используя только зрение. В то же время спелые авакадо более мягкие, чем незрелые, и, таким образом, тактильные ощущения могут улучшить классификацию.

Мы выполнили оценки прогнозирования свойств и классификации зрелости, используя набор из 10 авокадо с 20 тактильными образцами, собранными из каждого авокадо (то есть 200 общих образцов). Во время классификации зрелости было отобрано 100 пар образцов авокадо, и осьминоги было поручено определить, какое авокадо является избыточным. Каждая пара содержит авокадо на разных этапах зрелости. Во время теста робот Франка развлекал каждый авокадо один раз, чтобы собрать тактильные показания, прежде чем передавать его в модель. Модель дала инструкции, по которым авокадо

TABLE VIII. Avocado Property Prediction and Ripeness Classification Results. OCTOPI-13b predicts avocado properties reasonably well with only a pressing motion. For avocado ripeness classification, OCTOPI-13b is able to leverage its commonsense knowledge to use both hardness and bumpiness properties.

Поместить в зрелую мусорную корзину, и это было передано через АФК для исполнения.

В таблице VIII показана производительность Octopi-13B как по прогнозированию свойств авокадо, так и в классификации зрелости авокадо. Мы разделили оценку на две части и оцениваем прогноз свойств авокадо и классификацию зрелости отдельно.

Для прогнозирования свойства авокадо осьминог достигает точности 35,50%, что значительно выше, чем у случайной базовой линии (3,70%). В отличие от физического набора данных, эти тактильные видео собираются только с нажатием и без какого -либо вращения. Это говорит о том, что возможность прогнозирования физического свойства Octopi-13B является устойчивой к различиям в процедурах тактильных исследований.

Octopi-13b получает точность прогнозирования зрелости 63,00%. Чтобы установить эту задачу, мы сначала выявляем здравые мышления осьминога для зрелости авокадо, используя наши свойства, запрашивая «Вам дадут тактильные описания, состоящие из трех физических свойств: твердость, грубость, неровность. Твердость в категориях с высокой плодоностью: мягкая, умеренно жесткая, жесткая грубость. Удар. Octopi-13b реагирует с «свойствами, которые помогают определить зрелость авокадо,-это твердость и неровность. Шероховатость не является надежным показателем зрелости авокадо. С точки зрения твердости, зрелый авокадо будет умеренно жестким, в то время как у нечувствительного авокадо будет твердо. Этот обмен предоставляется в качестве контекста для осьминога-13b во время классификации зрелости.

Для сравнения, мы оценили физически обоснованную модель VisionLanguage, PG-InstructBlip [17] о прогнозах свойства наших авокадо. PG-InstructBlip был обучен выводу предопределенного набора физических свойств из визуальных изображений реальных объектов в наборе данных EgoObjects [65]. В таблице VIII показана эффективность PG-InstructBlip по прогнозу собственности для наших авокадо была плохим. Возможные причины для этого заключаются в том, что (i) определения физических свойств не могут быть надежны с физикой, и/или (ii) физические свойства авокадо не очевидны с использованием только визуальной модальности. Мы не могли уговорить модель PG-InstructBlip, чтобы напрямую классифицировать зрелость авокадо, несмотря на то, что они пытались различные подсказки; Это всегда выбирал первый объект.

TABLE IX. Results on PHYSICLEAR Object Property Description Test Set. FT CLIP is the combination of the fine-tuned CLIP visual encoder and the three separate trained classification layers. OCTOPI-7b and OCTOPI-13b perform above the random baseline for object property predictions and have similar performance to the finetuned CLIP. OCTOPI-13b performs better than OCTOPI-7b on the prediction task.

TABLE X. CLIP Fine-tuning Ablation Results on Object Property Prediction. FT refers to fine-tuned. Using the CLIP fine-tuned on property prediction improves OCTOPI’s performance in property prediction.

D. Прогнозирование свойства объекта

Физическое понимание и возможности рассуждения сценариев осьминоги зависит от его первоначальных прогнозов физического свойства. Мы оценили прогнозирование физического свойства осьминога на физическом испытательном наборе и показали результаты в таблице IX. Как осьминоги-7B, так и осьминог-13b работают намного выше случайной базовой линии для комбинированного и индивидуального прогноза свойств и имеют аналогичные характеристики с тонкой настройкой модели клипа, что указывает на то, что осьминоги могут использоваться для прогнозирования свойств объекта. Octopi-13b имеет более высокую комбинированную точность (то есть все три физических свойства правильно предсказаны для данного объекта) по сравнению с осьминоги-7B, что позволяет предположить, что существует прирост производительности с большими LLM для заземления тактильного сигнала (помимо свойства неровности).

Эта статья естьДоступно на ArxivПод CC по лицензии 4.0.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE