
Этот ИИ учится справляться с неизвестным - в одиночку
13 июня 2025 г.Авторы:
(1) Самсон Ю, кафедра компьютерных наук, Национальный университет Сингапура (samson.yu@u.nus.edu);
(2) Кельвин Лин. Департамент компьютерных наук, Национальный университет Сингапура;
(3) с тревогой Сяо, кафедра компьютерных наук, Национальный университет Сингапура;
(4) Цзяфей Дуан, Вашингтонский университет;
(5) Гарольд Сох, кафедра компьютерных наук, Национальный университет Сингапура и Институт интеллектуальных систем NUS (harold@comp.nus.edu.sg).
Таблица ссылок
- Аннотация и I. Введение
- II Связанная работа
- Iii. Физиклеар - тактильное и физическое понимание обучения и оценки
- IV Осьминог-физические рассуждения с осью осьминоги
- V. Экспериментальная установка
- VI Экспериментальные результаты
- VII. Абляции
- VIII. Заключение и обсуждение, подтверждения и ссылки
- Приложение для осьминоги: рассуждения о свойстве объекта с большими моделями тактильно-языка
- Приложение A: сведения об аннотации
- Приложение B: сведения о объекте
- Приложение C: Статистика недвижимости
- Приложение D: образец статистики видео
- Приложение E: Анализ энкодера
- Приложение F: PG-Instructblip Avocado Прогнозирование имущества.
- Приложение для осьминоги: рассуждения о свойстве объекта с большими моделями тактильно-языка
V. Экспериментальная установка
В этом разделе мы оцениваем возможности прогнозирования физического свойства и рассуждения предложенного нашего метода. Мы разрабатываем несколько экспериментов, чтобы ответить на следующие вопросы:
Являются ли наши прогнозы физической собственности полезным для осьминога, чтобы рассуждать о повседневных сценариях?
Можно ли использовать Octopi в реальных роботах, чтобы помочь им выполнить задачи, используя физические рассуждения?
Может ли понимание осьминога физических свойств обобщить на невидимые объекты повседневной жизни?
А. Обработка данных
Тактильные видео были обработаны в кадры. Чтобы сосредоточиться на нескольких существенных кадрах для лучшей эффективности, мы выбрали рамки, которые имеют ведущую разницу в интенсивности пикселей в 30% с их предыдущими кадрами. Мы случайным образом отобрали 5 кадров из этих важных кадров во время тренировок и выбрали 5 кадров с равномерными интервалами из первой существенной рамки во время оценки. Увеличение данных было выполнено во время обучения в виде случайных горизонтальных и вертикальных переворот с вероятностью 50% для каждого флип.
Б. Обучение гиперпараметрам
C. Требования к обучению
Точная настройка Encoder заняла 6 часов и потребовалась менее 5 ГБ VRAM GPU. Выравнивание тактильной функции вместе с сквозной тонкой настройкой заняла 5 часов для осьминога и 6,5 часов для осьминога. Мы использовали 1 NVIDIA RTX A6000 для осьминога и 2 NVIDIA RTX A6000S для Octopi-13B.
Эта статья естьДоступно на ArxivПод CC по лицензии 4.0.
Оригинал