
ИИ изучает физические свойства от прикосновения с использованием физики -каркаса
13 июня 2025 г.Авторы:
(1) Самсон Ю, кафедра компьютерных наук, Национальный университет Сингапура (samson.yu@u.nus.edu);
(2) Кельвин Лин. Департамент компьютерных наук, Национальный университет Сингапура;
(3) с тревогой Сяо, кафедра компьютерных наук, Национальный университет Сингапура;
(4) Цзяфей Дуан, Вашингтонский университет;
(5) Гарольд Сох, кафедра компьютерных наук, Национальный университет Сингапура и Институт интеллектуальных систем NUS (harold@comp.nus.edu.sg).
Таблица ссылок
- Аннотация и I. Введение
- II Связанная работа
- Iii. Физиклеар - тактильное и физическое понимание обучения и оценки
- IV Осьминог-физические рассуждения с осью осьминоги
- V. Экспериментальная установка
- VI Экспериментальные результаты
- VII. Абляции
- VIII. Заключение и обсуждение, подтверждения и ссылки
- Приложение для осьминоги: рассуждения о свойстве объекта с большими моделями тактильно-языка
- Приложение A: сведения об аннотации
- Приложение B: сведения о объекте
- Приложение C: Статистика недвижимости
- Приложение D: образец статистики видео
- Приложение E: Анализ энкодера
- Приложение F: PG-Instructblip Avocado Прогнозирование имущества.
- Приложение для осьминоги: рассуждения о свойстве объекта с большими моделями тактильно-языка
Iii. Физиклеар - тактильное и физическое понимание обучения и оценки
В этом разделе описывается физиклеар, который содержит тактильный набор данных с физическим свойством и аннотациями объекта, а также набором обучения и оценки.
А. Выбор физического свойства
В этой работе мы сосредотачиваемся на трех объектных свойствах: твердости, шероховатости и неровности. Мы перечисляем описание и категории каждого свойства в таблице I. Кратко, твердость характеризуется степени деформации поверхности при подверженности давлению; Шероховатость относится к текстуре поверхности; и неровность описывает известность поверхностных выступов. Твердость объекта коррелирует с его соответствием и тепловыми характеристиками. Напротив, шероховатость и неровность являются атрибутами, под влиянием коэффициента трения поверхности [10].
Выбор твердости, шероховатости и неровности в качестве физических атрибутов в нашем исследовании основан на их актуальности для физических рассуждений [43, 20, 38, 10, 5, 26]. Как правило, статические физические свойства объектов классифицируются на геометрические (например, размер), материал (например, твердость) и аффективные (например, комфорт) [41]. Наше исследование преимущественно учитывает свойства материала, поскольку мы считали геометрические и аффективные свойства слишком сложными, чтобы определить, используя Gelsight. Выбор этих специфических свойств был также проинформирован о методологии сбора данных [27], адаптированным к ограничениям и сильным сторонам датчика Gelsight, включая соображения для его чувствительности и долговечности.
B. Сбор и аннотацию наборов данных
Чтобы облегчить заземление наших физических рассуждений на тактильных входах, мы собрали набор данных из 74 повседневных объектов, общая 408 тактильных видео и соответствующие видео, показывающие объект, как были собраны данные. Эти объекты были выбраны для охвата в трех наших выбранных свойствах, с изменениями между типами объектов и материалами. Подробные сравнения между физическими и существующими наборами данных Gelsight можно найти в таблице II.
Данные Gelsight были собраны, чтобы смягчить риск повреждения датчиков и из-за проблемы обеспечения различных частей объектов нерегулярной формы при выполнении необходимых движений отбора проб. Для каждого выбранного объекта мы снимали до семи тактильных видео для каждой отдельной области, идентифицированной оценщиком человека. Этот процесс включал в себя процедуру двойного двойника: первоначально нажатие датчика Gelsight к объекту для захвата показаний давления, за которым следует вращение датчика для получения показаний сдвига. Каждое видео, сгенерированное с помощью одного гельзетка с показанием датчика, представляет собой отдельную точку данных в нашем наборе данных.
Аннотации физических свойств были выполнены тремя независимыми аннотаторами, причем средняя оценка использовалась в качестве окончательной аннотации для каждой точки данных. Аннотаторы были предоставлены как тактильные видео, так и объекты. Каждое свойство имеет три категории, а аннотаторам получили следующие рекомендации по маркировке каждого свойства:
• Твердость: Метка Soft предназначена для объектов, которые сжимаются с небольшим силой, умеренно жесткие для объектов, которые сжимаются с умеренной силой, и жесткие для объектов, которые несжимаемы даже с большой нажимающей силой.
• Шероховатость: Гладкий предназначен для объектов, которые имеют очень минимальное сопротивление или не сопротивление, когда мы продвигаем пальцем по его поверхности, слегка шероховатые для объектов с небольшим сопротивлением и грубым для объектов со значительным сопротивлением.
• Ухабительность: Не удачи не для объектов без видимых выступов на ее поверхности, небольшие удары для объектов с выступами меньше, чем ≈ 1/4 тактильного изображения при контакте, и большие удары для объектов с выступами, превышающими 1/4.
Этот процесс дал более 1200 аннотаций, и мы наблюдали высокие оценки соглашения между аннотаторами (ICC3K 0,894 (твердость), 0,979 (шероховатость) и 0,792 (неровность)). Для справки, оценка выше 0,75 считается хорошей или превосходной надежностью. Набор данных был впоследствии разделен на три отдельных подмножества (обучение, валидация и тестирование) после разделения 80-10-10. Это разделение привело к 60 объектам для обучения и по 7 объектов для проверки и тестирования.
C. Обучение и оценка
Набор обучения и оценки Physiclear включает в себя пять задач по физическим рассуждениям (Таблица III). Все пять задач используют тактильные данные и инструкции естественного языка в качестве входных данных (Таблица IV). Поскольку тактильные данные находятся в видео -форме, мы следуем за предыдущей работой LVLM и представляем их как последовательность кадров: x1, ..., xn. Мы более подробно описываем мотивацию, настройку, сведения о оценке, и используются ли они для обучения [T] и/или оценки [E] ниже:
Сравнение свойств (ПК) [T, E].Учитывая два тактильных видео, каждый из разных объектов, указанное физическое свойство и его сравнительное прилагательное, определяют, точно ли сравнительное прилагательное описывает два видео. С точки зрения обучения, эта задача помогает модели различать различные описания физических свойств, тем самым выравнивая ее понимание физических характеристик с нашими определенными категориями твердости, шероховатости и неровности. Эта способность выравнивания может улучшить способность модели интерпретировать и рассуждать о физическом мире в соответствии с человеческим пониманием.
Превосходное отбор собственности (PSS) [T, E].Для трех тактильных видео, каждого из разных объектов и указанного физического свойства и его превосходного прилагательного (например, самое сложное для свойства твердости) выберите видео, которое лучше всего описывает превосходное прилагательное. Эта задача похожа на задачу ПК и помогает LLM выравнивать свое физическое понимание с помощью наших описаний физических свойств. Кроме того, поскольку предшествующая работа показала, что LLMS может работать по -разному, когда полярность сравнительных прилагательных изменений [52], эта задача стремится повысить устойчивость LLM к различным сравнительным описаниям физических свойств.
Сопоставление объекта недвижимости (POM) [T, E].Эта задача требует сопоставления физических свойств с объектами: Учитывая три тактиля
Видео (каждый из которых с различным объектом) и три указанных объекта, цель состоит в том, чтобы правильно связать каждое видео с объектом. Это помогает согласовать существующие знания модели в свойствах объектов с нашим тактичным восприятием, поскольку наши аннотации основаны на человеческом прикосновении и служат ссылкой на физические свойства и их ярлыки.
Сценарий собственности (PSR) [E].Мы предоставляем два тактильных видео, каждое из которых демонстрирует другой объект, а также реальный сценарий, который опирается на один или несколько наших определенных физических свойств. Задача состоит в том, чтобы выбрать видео, которое представляет объект, физические свойства, лучше всего соответствуют требованиям сценария. Этот подход позволяет нам оценить возможности физических рассуждений модели. Детали сценариев представлены в таблице V.
Эта статья естьДоступно на ArxivПод CC по лицензии 4.0.
Оригинал