Этот ИИ знает, что он трогает - потому что ученые настроили свои чувства

Этот ИИ знает, что он трогает - потому что ученые настроили свои чувства

13 июня 2025 г.

Авторы:

(1) Самсон Ю, кафедра компьютерных наук, Национальный университет Сингапура (samson.yu@u.nus.edu);

(2) Кельвин Лин. Департамент компьютерных наук, Национальный университет Сингапура;

(3) с тревогой Сяо, кафедра компьютерных наук, Национальный университет Сингапура;

(4) Цзяфей Дуан, Вашингтонский университет;

(5) Гарольд Сох, кафедра компьютерных наук, Национальный университет Сингапура и Институт интеллектуальных систем NUS (harold@comp.nus.edu.sg).

  • Аннотация и I. Введение
  • II Связанная работа
  • Iii. Физиклеар - тактильное и физическое понимание обучения и оценки
  • IV Осьминог-физические рассуждения с осью осьминоги
  • V. Экспериментальная установка
  • VI Экспериментальные результаты
  • VII. Абляции
  • VIII. Заключение и обсуждение, подтверждения и ссылки
    • Приложение для осьминоги: рассуждения о свойстве объекта с большими моделями тактильно-языка
      • Приложение A: сведения об аннотации
      • Приложение B: сведения о объекте
      • Приложение C: Статистика недвижимости
      • Приложение D: образец статистики видео
      • Приложение E: Анализ энкодера
      • Приложение F: PG-Instructblip Avocado Прогнозирование имущества.

VII. Абляции

В этом разделе мы описываем исследования абляции для изучения (i) влияния изученных представлений энкодера на прогнозирование физического свойства и (ii) влияние конечного количества данных о современном положении на физические рассуждения. Для следующих разделов мы сообщаем о точности теста на невидимые объекты.

А. Абляция: влияние тонкой настройки энкодера

Мы использовали тактильные входные данные на основе зрения в этой работе, и модели фонда, предварительно подготовленные Vision (то есть CLIP), показали впечатляющую производительность в задачах зрения. Чтобы проверить, улучшает ли дополнительная тонкая настройка предварительно обученные представления энкодера клипа для прогнозирования физического свойства с использованием тактильных изображений, мы провели эксперименты с абляцией. Мы сравнили производительность двух осьминог-версий-одна обученная с помощью готового энкодера зажима, а другая тренировалась с помощью энкодера зажима.

TABLE XI. CLIP Fine-tuning Ablation Results on Physical Understanding Tasks. Using a fine-tuned CLIP improves OCTOPI’s performance in physical understanding tasks for both OCTOPI-7b and OCTOPI-13b.

TABLE XII. End-to-end Fine-tuning Physical Property Prediction Result Comparisons. End-to-end fine-tuning with LoRA generally improves physical property prediction accuracies.

В таблице x результаты описания свойства объекта показывают, что осьминодированный энкодер, обученный Octopi-7B, обучен с тонкой настройкой зажима, обученного с помощью немодифицированного энкодера зажима на 7,90% при комбинированной точности. Аналогичным образом, осьминоги-13b с тонким настройкой визуального энкодера зажима работают лучше в комбинированных, шероховатости и неровности, при этом комбинированная точность на 5,26% выше. Это говорит о том, что тонкий клип обычно улучшает его ученые представления о прогнозировании физического свойства в сквозном LVLM.

Мы также проверили обе версии осьминога на физическом понимании задач с результатами в таблице XI. Для Octopi-7B версия, обученная с помощью тонкого настраиваемого энкодера клипа, работает лучше в трех физических задачах (на 17,72% на ПК, 32,00% на PSS, 8,03% на POM). Аналогичным образом, Octopi-13b с тонким настраиваемым зажимом Encoder имеет лучшую производительность для физических понимания задач, что говорит о том, что создание, как правило, помогает физическому пониманию и физическим рассуждениям. Дальнейший анализ энкодера можно найти в Приложении E.

B. абляция: влияние сквозной тонкой настройки

В таблице XII показана производительность Octopi в задаче прогнозирования свойств до и после сквозной точной настройки с Лорой. Как для осьминога, так и для осьминога-13B, тонкие варианты обычно выполнялись лучше. Мы видим резкие улучшения для Octopi-13b с улучшениями по всем свойствам. Наши результаты показывают, что сквозная точная настройка повышает точность прогнозирования физического свойства. Подобно задаче прогнозирования свойств, мы наблюдали, что тонкая настройка с Лорой также улучшает эффективность осьминога по физическим пониманию задач (Таблица XIII).

TABLE XIII. End-to-end Fine-tuning Physical Understanding Result Comparisons. End-to-end fine-tuning for physical understanding tasks significantly improves physical understanding for both OCTOPI7b and OCTOPI-13b.

Эта статья естьДоступно на ArxivПод CC по лицензии 4.0.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE