Исследователи обрабатывают модели на языке зрения и касаются новой рамки осьминоги

13 июня 2025 г.

Авторы:

(1) Самсон Ю, кафедра компьютерных наук, Национальный университет Сингапура (samson.yu@u.nus.edu);

(2) Кельвин Лин. Департамент компьютерных наук, Национальный университет Сингапура;

(3) с тревогой Сяо, кафедра компьютерных наук, Национальный университет Сингапура;

(4) Цзяфей Дуан, Вашингтонский университет;

(5) Гарольд Сох, кафедра компьютерных наук, Национальный университет Сингапура и Институт интеллектуальных систем NUS (harold@comp.nus.edu.sg).

Таблица ссылок

Аннотация и I. Введение
II Связанная работа
Iii. Физиклеар - тактильное и физическое понимание обучения и оценки
IV Осьминог-физические рассуждения с осью осьминоги
V. Экспериментальная установка
VI Экспериментальные результаты
VII. Абляции
VIII. Заключение и обсуждение, подтверждения и ссылки
- Приложение для осьминоги: рассуждения о свойстве объекта с большими моделями тактильно-языка
  - Приложение A: сведения об аннотации
  - Приложение B: сведения о объекте
  - Приложение C: Статистика недвижимости
  - Приложение D: образец статистики видео
  - Приложение E: Анализ энкодера
  - Приложение F: PG-Instructblip Avocado Прогнозирование имущества.

В этом разделе мы кратко рассмотрим предыдущую работу по обучению тактильному представлению с помощью датчика Gelsight, больших моделей языка зрения (LVLMS) и физических рассуждений под руководством языка/зрений. В манипуляции и физических рассуждениях была значительная работа, и мы ссылаемся на читатели, желающие информации по этим темам к соответствующим документам обследования [37, 14, 66, 47, 28].

Тактильное представление обучение с Gelsight.В последние годы обучение тактильному представлению значительно увеличилось, так как роботизированные манипуляции часто требуют большей точности, кроме того, что может быть обеспечено только видением [44]. Среди доступных тактильных датчиков датчики, основанные на зрении, приобрели популярность из-за их выходов изображений с высоким разрешением и универсальности. В частности, датчик Gelsight использовался в недавней работе [32, 59, 60, 24, 61] для вывода физических свойств (например, твердость, текстура и объем жидкости) и для манипулирования объектами [48]. Ключевым преимуществом Gelsight является то, что его выходы изображений могут быть легко обработаны современными методами глубокого обучения [24]. В результате, популярные алгоритмы зрения были использованы для обучения тактильному представлению с помощью Gelsight [62, 8]. В нашей работе мы используем недавние достижения в области тактильного представления, чтобы расширить возможности LVLMS для разумного тактильного ввода на основе зрения.

Большие модели на языке зрения.Недавние достижения в LLMS стимулировали значительное увеличение усилий по интеграции моделей зрения с LLMS, примером которых является Flamingo [1], BLIP2 [29] и Minigpt-V2 [9]. Эти большие модели на языке зрения (LVLMS) показали замечательную эффективность в использовании данных-текстовых данных в веб-масштабе для рассуждений на основе изображений, что принесло пользу ряду приложений от робототехники [7, 15] для медицинской визуализации [42]. Самая недавняя работа включает в себя разработку LVLMS, которые могут обрабатывать видеоконтент [30, 36], позволяет рассуждать о динамической визуальной информации или интеграция мультимодальных сенсорных данных [64].

Физические рассуждения с языком и видением как контекст.Исследование физических рассуждений в сочетании с языком предшествует появлению LLM. Ранние исследования были сосредоточены на оценке владения моделью в физических рассуждениях. Например, эталон PIQA [6] оценивает модели по физическому здравому смыслу, тогда как Prost [2] рассматривает их понимание концепций физических рассуждений. Последующие достижения в области языкового обозначения привели к таким работам, как Clevrer [58], PIP [13], Space [12] и Phys101 [54], которые исследуют приобретение навыков физических рассуждений из визуальных вводов.

В новую эпоху LLM исследования были сосредоточены на объектно -центриковых физических рассуждениях в LLMS. Это включает в себя оценку различных LLM для их возможностей для физических рассуждений, например, Newton [52] и использования моделей языка зрений (VLM) для прогнозирования физических свойств, которые затем используются для облегчения рассуждений, как показано в физически обоснованных VLM [17]. В отличие от предыдущих исследований, которые в первую очередь касаются физических рассуждений посредством интеграции зрения и языка, осьминоги выделяются как одна из первых моделей, способных обрабатывать тактильные изображения наряду с языковыми инструкциями, чтобы обеспечить физические рассуждения. Была очень недавняя работа [22], которая использует моделируемые тактильные входы с LLMS, но мы сосредоточены на реальных тактильных данных. Одновременная работа [16, 57] также исследует реальные тактильные данные, но наша работа показывает аннотации физических свойств и тестовый набор, включающий в себя задачи рассуждения сценариев, и эксперименты с использованием осьминоги для оценки полезности вывода физического свойства.

Эта статья естьДоступно на ArxivПод CC по лицензии 4.0.

Оригинал

Исследователи обрабатывают модели на языке зрения и касаются новой рамки осьминоги

Таблица ссылок

🔥 Популярное на этой неделе

Marvel’s Wolverine: все, что мы знаем об эксклюзиве для PS5 на данный момент

Новое обновление Xbox Series X только что вышло и может сэкономить вам деньги

8 проектов с открытым исходным кодом, которые помогут вашему бизнесу работать эффективно

Новые фильмы Netflix 2023 года: самые большие оригинальные фильмы, выходящие на стример

Новые фильмы 2023 года: самые крупные предстоящие релизы скоро появятся в кинотеатрах

⭐ Самое популярное

Marvel’s Wolverine: все, что мы знаем об эксклюзиве для PS5 на данный момент

Новые фильмы 2023 года: самые крупные предстоящие релизы скоро появятся в кинотеатрах

8 проектов с открытым исходным кодом, которые помогут вашему бизнесу работать эффективно

Новые фильмы Netflix 2023 года: самые большие оригинальные фильмы, выходящие на стример

Новое обновление Xbox Series X только что вышло и может сэкономить вам деньги

Categories

Исследователи обрабатывают модели на языке зрения и касаются новой рамки осьминоги

Таблица ссылок

II Связанная работа

🔥 Популярное на этой неделе

Marvel’s Wolverine: все, что мы знаем об эксклюзиве для PS5 на данный момент

Новое обновление Xbox Series X только что вышло и может сэкономить вам деньги

8 проектов с открытым исходным кодом, которые помогут вашему бизнесу работать эффективно

Новые фильмы Netflix 2023 года: самые большие оригинальные фильмы, выходящие на стример

Новые фильмы 2023 года: самые крупные предстоящие релизы скоро появятся в кинотеатрах

⭐ Самое популярное

Marvel’s Wolverine: все, что мы знаем об эксклюзиве для PS5 на данный момент

Новые фильмы 2023 года: самые крупные предстоящие релизы скоро появятся в кинотеатрах

8 проектов с открытым исходным кодом, которые помогут вашему бизнесу работать эффективно

Новые фильмы Netflix 2023 года: самые большие оригинальные фильмы, выходящие на стример

Новое обновление Xbox Series X только что вышло и может сэкономить вам деньги

Categories