Этот ИИ учится справляться с неизвестным - в одиночку

Этот ИИ учится справляться с неизвестным - в одиночку

13 июня 2025 г.

Авторы:

(1) Самсон Ю, кафедра компьютерных наук, Национальный университет Сингапура (samson.yu@u.nus.edu);

(2) Кельвин Лин. Департамент компьютерных наук, Национальный университет Сингапура;

(3) с тревогой Сяо, кафедра компьютерных наук, Национальный университет Сингапура;

(4) Цзяфей Дуан, Вашингтонский университет;

(5) Гарольд Сох, кафедра компьютерных наук, Национальный университет Сингапура и Институт интеллектуальных систем NUS (harold@comp.nus.edu.sg).

  • Аннотация и I. Введение
  • II Связанная работа
  • Iii. Физиклеар - тактильное и физическое понимание обучения и оценки
  • IV Осьминог-физические рассуждения с осью осьминоги
  • V. Экспериментальная установка
  • VI Экспериментальные результаты
  • VII. Абляции
  • VIII. Заключение и обсуждение, подтверждения и ссылки
    • Приложение для осьминоги: рассуждения о свойстве объекта с большими моделями тактильно-языка
      • Приложение A: сведения об аннотации
      • Приложение B: сведения о объекте
      • Приложение C: Статистика недвижимости
      • Приложение D: образец статистики видео
      • Приложение E: Анализ энкодера
      • Приложение F: PG-Instructblip Avocado Прогнозирование имущества.

V. Экспериментальная установка

В этом разделе мы оцениваем возможности прогнозирования физического свойства и рассуждения предложенного нашего метода. Мы разрабатываем несколько экспериментов, чтобы ответить на следующие вопросы:

  1. Являются ли наши прогнозы физической собственности полезным для осьминога, чтобы рассуждать о повседневных сценариях?

  2. Можно ли использовать Octopi в реальных роботах, чтобы помочь им выполнить задачи, используя физические рассуждения?

  3. Может ли понимание осьминога физических свойств обобщить на невидимые объекты повседневной жизни?

А. Обработка данных

Тактильные видео были обработаны в кадры. Чтобы сосредоточиться на нескольких существенных кадрах для лучшей эффективности, мы выбрали рамки, которые имеют ведущую разницу в интенсивности пикселей в 30% с их предыдущими кадрами. Мы случайным образом отобрали 5 кадров из этих важных кадров во время тренировок и выбрали 5 кадров с равномерными интервалами из первой существенной рамки во время оценки. Увеличение данных было выполнено во время обучения в виде случайных горизонтальных и вертикальных переворот с вероятностью 50% для каждого флип.

TABLE VI. Results on PHYSICLEAR Physical Understanding Tasks. OCTOPI’s performance on physical understanding tasks improves with object property descriptions (OPD). Performance also increases with larger LLM size, with OCTOPI-13b outperforming OCTOPI-7b across all three tasks.

Б. Обучение гиперпараметрам

C. Требования к обучению

Точная настройка Encoder заняла 6 часов и потребовалась менее 5 ГБ VRAM GPU. Выравнивание тактильной функции вместе с сквозной тонкой настройкой заняла 5 часов для осьминога и 6,5 часов для осьминога. Мы использовали 1 NVIDIA RTX A6000 для осьминога и 2 NVIDIA RTX A6000S для Octopi-13B.

Эта статья естьДоступно на ArxivПод CC по лицензии 4.0.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE