
Этот ИИ знает, что он трогает - потому что ученые настроили свои чувства
13 июня 2025 г.Авторы:
(1) Самсон Ю, кафедра компьютерных наук, Национальный университет Сингапура (samson.yu@u.nus.edu);
(2) Кельвин Лин. Департамент компьютерных наук, Национальный университет Сингапура;
(3) с тревогой Сяо, кафедра компьютерных наук, Национальный университет Сингапура;
(4) Цзяфей Дуан, Вашингтонский университет;
(5) Гарольд Сох, кафедра компьютерных наук, Национальный университет Сингапура и Институт интеллектуальных систем NUS (harold@comp.nus.edu.sg).
Таблица ссылок
- Аннотация и I. Введение
- II Связанная работа
- Iii. Физиклеар - тактильное и физическое понимание обучения и оценки
- IV Осьминог-физические рассуждения с осью осьминоги
- V. Экспериментальная установка
- VI Экспериментальные результаты
- VII. Абляции
- VIII. Заключение и обсуждение, подтверждения и ссылки
- Приложение для осьминоги: рассуждения о свойстве объекта с большими моделями тактильно-языка
- Приложение A: сведения об аннотации
- Приложение B: сведения о объекте
- Приложение C: Статистика недвижимости
- Приложение D: образец статистики видео
- Приложение E: Анализ энкодера
- Приложение F: PG-Instructblip Avocado Прогнозирование имущества.
- Приложение для осьминоги: рассуждения о свойстве объекта с большими моделями тактильно-языка
VII. Абляции
В этом разделе мы описываем исследования абляции для изучения (i) влияния изученных представлений энкодера на прогнозирование физического свойства и (ii) влияние конечного количества данных о современном положении на физические рассуждения. Для следующих разделов мы сообщаем о точности теста на невидимые объекты.
А. Абляция: влияние тонкой настройки энкодера
Мы использовали тактильные входные данные на основе зрения в этой работе, и модели фонда, предварительно подготовленные Vision (то есть CLIP), показали впечатляющую производительность в задачах зрения. Чтобы проверить, улучшает ли дополнительная тонкая настройка предварительно обученные представления энкодера клипа для прогнозирования физического свойства с использованием тактильных изображений, мы провели эксперименты с абляцией. Мы сравнили производительность двух осьминог-версий-одна обученная с помощью готового энкодера зажима, а другая тренировалась с помощью энкодера зажима.
В таблице x результаты описания свойства объекта показывают, что осьминодированный энкодер, обученный Octopi-7B, обучен с тонкой настройкой зажима, обученного с помощью немодифицированного энкодера зажима на 7,90% при комбинированной точности. Аналогичным образом, осьминоги-13b с тонким настройкой визуального энкодера зажима работают лучше в комбинированных, шероховатости и неровности, при этом комбинированная точность на 5,26% выше. Это говорит о том, что тонкий клип обычно улучшает его ученые представления о прогнозировании физического свойства в сквозном LVLM.
Мы также проверили обе версии осьминога на физическом понимании задач с результатами в таблице XI. Для Octopi-7B версия, обученная с помощью тонкого настраиваемого энкодера клипа, работает лучше в трех физических задачах (на 17,72% на ПК, 32,00% на PSS, 8,03% на POM). Аналогичным образом, Octopi-13b с тонким настраиваемым зажимом Encoder имеет лучшую производительность для физических понимания задач, что говорит о том, что создание, как правило, помогает физическому пониманию и физическим рассуждениям. Дальнейший анализ энкодера можно найти в Приложении E.
B. абляция: влияние сквозной тонкой настройки
В таблице XII показана производительность Octopi в задаче прогнозирования свойств до и после сквозной точной настройки с Лорой. Как для осьминога, так и для осьминога-13B, тонкие варианты обычно выполнялись лучше. Мы видим резкие улучшения для Octopi-13b с улучшениями по всем свойствам. Наши результаты показывают, что сквозная точная настройка повышает точность прогнозирования физического свойства. Подобно задаче прогнозирования свойств, мы наблюдали, что тонкая настройка с Лорой также улучшает эффективность осьминога по физическим пониманию задач (Таблица XIII).
Эта статья естьДоступно на ArxivПод CC по лицензии 4.0.
Оригинал