
Исследователи обрабатывают модели на языке зрения и касаются новой рамки осьминоги
13 июня 2025 г.Авторы:
(1) Самсон Ю, кафедра компьютерных наук, Национальный университет Сингапура (samson.yu@u.nus.edu);
(2) Кельвин Лин. Департамент компьютерных наук, Национальный университет Сингапура;
(3) с тревогой Сяо, кафедра компьютерных наук, Национальный университет Сингапура;
(4) Цзяфей Дуан, Вашингтонский университет;
(5) Гарольд Сох, кафедра компьютерных наук, Национальный университет Сингапура и Институт интеллектуальных систем NUS (harold@comp.nus.edu.sg).
Таблица ссылок
- Аннотация и I. Введение
- II Связанная работа
- Iii. Физиклеар - тактильное и физическое понимание обучения и оценки
- IV Осьминог-физические рассуждения с осью осьминоги
- V. Экспериментальная установка
- VI Экспериментальные результаты
- VII. Абляции
- VIII. Заключение и обсуждение, подтверждения и ссылки
- Приложение для осьминоги: рассуждения о свойстве объекта с большими моделями тактильно-языка
- Приложение A: сведения об аннотации
- Приложение B: сведения о объекте
- Приложение C: Статистика недвижимости
- Приложение D: образец статистики видео
- Приложение E: Анализ энкодера
- Приложение F: PG-Instructblip Avocado Прогнозирование имущества.
- Приложение для осьминоги: рассуждения о свойстве объекта с большими моделями тактильно-языка
II Связанная работа
В этом разделе мы кратко рассмотрим предыдущую работу по обучению тактильному представлению с помощью датчика Gelsight, больших моделей языка зрения (LVLMS) и физических рассуждений под руководством языка/зрений. В манипуляции и физических рассуждениях была значительная работа, и мы ссылаемся на читатели, желающие информации по этим темам к соответствующим документам обследования [37, 14, 66, 47, 28].
Тактильное представление обучение с Gelsight.В последние годы обучение тактильному представлению значительно увеличилось, так как роботизированные манипуляции часто требуют большей точности, кроме того, что может быть обеспечено только видением [44]. Среди доступных тактильных датчиков датчики, основанные на зрении, приобрели популярность из-за их выходов изображений с высоким разрешением и универсальности. В частности, датчик Gelsight использовался в недавней работе [32, 59, 60, 24, 61] для вывода физических свойств (например, твердость, текстура и объем жидкости) и для манипулирования объектами [48]. Ключевым преимуществом Gelsight является то, что его выходы изображений могут быть легко обработаны современными методами глубокого обучения [24]. В результате, популярные алгоритмы зрения были использованы для обучения тактильному представлению с помощью Gelsight [62, 8]. В нашей работе мы используем недавние достижения в области тактильного представления, чтобы расширить возможности LVLMS для разумного тактильного ввода на основе зрения.
Большие модели на языке зрения.Недавние достижения в LLMS стимулировали значительное увеличение усилий по интеграции моделей зрения с LLMS, примером которых является Flamingo [1], BLIP2 [29] и Minigpt-V2 [9]. Эти большие модели на языке зрения (LVLMS) показали замечательную эффективность в использовании данных-текстовых данных в веб-масштабе для рассуждений на основе изображений, что принесло пользу ряду приложений от робототехники [7, 15] для медицинской визуализации [42]. Самая недавняя работа включает в себя разработку LVLMS, которые могут обрабатывать видеоконтент [30, 36], позволяет рассуждать о динамической визуальной информации или интеграция мультимодальных сенсорных данных [64].
Физические рассуждения с языком и видением как контекст.Исследование физических рассуждений в сочетании с языком предшествует появлению LLM. Ранние исследования были сосредоточены на оценке владения моделью в физических рассуждениях. Например, эталон PIQA [6] оценивает модели по физическому здравому смыслу, тогда как Prost [2] рассматривает их понимание концепций физических рассуждений. Последующие достижения в области языкового обозначения привели к таким работам, как Clevrer [58], PIP [13], Space [12] и Phys101 [54], которые исследуют приобретение навыков физических рассуждений из визуальных вводов.
В новую эпоху LLM исследования были сосредоточены на объектно -центриковых физических рассуждениях в LLMS. Это включает в себя оценку различных LLM для их возможностей для физических рассуждений, например, Newton [52] и использования моделей языка зрений (VLM) для прогнозирования физических свойств, которые затем используются для облегчения рассуждений, как показано в физически обоснованных VLM [17]. В отличие от предыдущих исследований, которые в первую очередь касаются физических рассуждений посредством интеграции зрения и языка, осьминоги выделяются как одна из первых моделей, способных обрабатывать тактильные изображения наряду с языковыми инструкциями, чтобы обеспечить физические рассуждения. Была очень недавняя работа [22], которая использует моделируемые тактильные входы с LLMS, но мы сосредоточены на реальных тактильных данных. Одновременная работа [16, 57] также исследует реальные тактильные данные, но наша работа показывает аннотации физических свойств и тестовый набор, включающий в себя задачи рассуждения сценариев, и эксперименты с использованием осьминоги для оценки полезности вывода физического свойства.
Эта статья естьДоступно на ArxivПод CC по лицензии 4.0.
Оригинал