Тьютор ИИ настоящий, и он уже здесь

Тьютор ИИ настоящий, и он уже здесь

4 июня 2025 г.

Авторы:

(1) Юнфан Цзян, факультет информатики;

(2) Чен Ван, кафедра компьютерных наук;

(3) Руохан Чжан, Департамент информатики и Институт ИИ, ориентированного на человека (HAI);

(4) Цзяджун Ву, Департамент информатики и Институт ИИ, ориентированного на человека (HAI);

(5) Ли Фей-Фей, Департамент информатики и Институт ИИ, ориентированного на человека (HAI).

Аннотация и 1 введение

2 предварительные

3 Transic: передача политики с рисованием в реальность путем обучения на онлайн-коррекции и 3.1 базовые политики обучения в моделировании с RL

3.2 ОБУЧЕНИЯ ОТРИЦИЯ ПОЛИТИКИ ОТНОВЛЕНИЯ НАУКЦИИ

3.3 Интегрированная структура развертывания и 3,4 Подробности реализации

4 эксперименты

4.1 Настройки эксперимента

4.2 Количественное сравнение по четырем задачам сборки

4.3 Эффективность в решении различных разрывов с рисунком (Q4)

4.4 Масштабируемость с человеческими усилиями (Q5) и 4,5 интригующих свойств и возникающего поведения (Q6)

5 Связанная работа

6 Заключение и ограничения, подтверждения и ссылки

А. Подробная информация об обучении симуляции

Б. Реальные детали обучения в реальном мире

C. Настройки эксперимента и детали оценки

D. Дополнительные результаты эксперимента

Абстрактный: Обучение в моделировании и передаче научной политики в реальное мир имеет потенциал для обеспечения роботов -универсал. Ключевая задача этого подхода-это рассмотрение пробелов моделирования к реальности (SIM-SIM-REAL). Предыдущие методы часто требуют домена знания априори. Мы утверждаем, что простой способ получить такие знания - просить людей наблюдать и оказать помощь в реализации политики робота в реальном мире. Роботы могут затем учиться у людей, чтобы закрыть различные промежутки с рисованием. Мы предлагаем Transic, основанный на данных подход, чтобы обеспечить успешную передачу SIM-к реальности на основе рамки от человека в петле. Transic позволяет людям целостно расширять политику моделирования, чтобы преодолеть различные бесконечные промежутки с рисованием с рисованием в результате вмешательства и онлайн-коррекции. Остаточные политики можно извлечь из поправки людей и интегрировать с политикой моделирования для автономного исполнения. Мы показываем, что наш подход может достичь успешного переноса с рисованием в реальность в сложных и богатых контактных задачах, таких как сборка мебели. Благодаря синергетической интеграции политики, изученной в моделировании и от людей, транзик эффективен как целостный подход к решению различных, часто сосуществующих пробелов с рисованием. Он отображает привлекательные свойства, такие как масштабирование с человеческими усилиями. Видео и код доступны по адресу tranic-robot.github.io.

1 Введение

Обучение в моделировании-это потенциальный подход к реализации генеральных роботов, способных решать сложные задачи принятия решений [1, 2]. Обучение для решения этих задач требует большого количества учебных данных [3–5]. Обеспечение неограниченного учебного надзора [6] посредством современного моделирования [7–11] может облегчить бремя сбора данных в реальном мире с физическими роботами [12, 13]. Следовательно, крайне важно для беспрепятственной передачи и развертывания политик управления роботами, полученными при моделировании, обычно посредством обучения подкреплению (RL), в реальное оборудование. Успешные демонстрации этого подхода к моделированию к реальности (SIM-TO-REAL) были продемонстрированы в ловких манипуляциях в руке [14–18], четвероногих локомоции [19–22], двуночном локомоции [23–28] и полете квадтотора [29, 30].

Тем не менее, воспроизведение аналогичного успеха в задачах манипуляции с роботизированными руками остается удивительно сложным, с лишь несколькими случаями в простых неподчисых манипуляциях (таких как вытягивание, толкание и поворот объектов) [31–34], отраслевая сборка под ограниченными условиями [35–39], открытие ящика [40] и качание PEG [40]. Трудность в основном связана с неизбежными промежутками с рисованием с рисунком [11, 41], включая, но не ограничиваясь разрывом восприятия [19, 42–44], несоответствием воплощения [19, 45, 46], неточности контроллера [47–49] и динамического реализма [50]. Традиционно исследователи решают эти разрывы с рисунком и задачу передачи посредством идентификации системы [19, 31, 51, 52], рандомизации домена [14, 53–55], реальной адаптации [56, 57] и увеличения симулятора [58–60]. Многие из этих подходов требуют явных, специфических для домена и знаний о задачах или симуляторах. Хотя для конкретной пары моделирования реальности, может быть

Figure 1: TRANSIC for sim-to-real transfer in contact-rich robotic manipulation tasks. a) and b) Na¨ıvely deploying policies trained in simulation usually fails due to various sim-to-real gaps. Here, the robot attempts to first align the light bulb with the base and then insert and screw the light bulb into the base. c) A human operator monitors robot behaviors, intervenes, and provides online correction through teleoperation when necessary. Human data are collected to train a residual policy to tackle various sim-to-real gaps in a holistic manner. d) The simulation policy and residual policy are integrated together during test time to achieve successful sim-to-real transfer for contact-rich tasks, such as screwing a light bulb into the base.

Существуют специфические индуктивные смещения, которые могут быть изготовлены вручную после того, чтобы закрыть разрыв с рисованием [19] [19], такие знания часто не доступны априори. Определение его влияния на выполнение задач также неразрешимо.

Мы утверждаем, что простым и возможным способом для людей получить такие знания, чтобы наблюдать и помочь выполнению политики в реальном мире. Если люди могут помочь роботу успешно выполнить задачи в реальном мире, эффективно решаются пробелы с рисованием. Это, естественно, приводит к общеприменимой парадигме, которая может охватывать различные априоры по моделированию и реалиям-обучению человека в петле [61–63] и общей автономии [64, 65].

Наше ключевое понимание состоит в том, что структура человека в петле является многообещающей для решения проблемы с рисованием в реальном времени в целом, в которых люди напрямую помогают физическим роботам во время выполнения политики, предоставляя сигналы онлайн-коррекции. Знания, необходимые для закрытия пробелов с рисованием, могут быть изучены из человеческих сигналов. С этой целью мы представляем транзик (передача политики SIM-в-реальность, обучаясь на онлайн-коррекции, рис. 1), подход, управляемый данными, позволяющий успешно передавать политику манипуляции с роботами, обученные RL в моделировании в реальном мире. В Tranicic, как только базовая политика робота будет получена в результате симуляционного обучения, они развернуты на реальных роботах, где человеческие операторы контролируют исполнение. Когда робот совершает ошибки или застревает, люди прерывают и помогают политике роботов посредством телеоперации. Такие данные о вмешательстве человека собираются для обучения остаточной политики, после чего базовая политика и остаточная политика объединяются для решения задач манипуляции с богатыми контактами, таких как сборка мебели. Благодаря синергетической интеграции с предыдущими подходами, поскольку люди могут успешно помочь роботу, обученному в Силико выполнять реальные задачи, промежутки с рисованием с рисунком неявно обрабатываются и решаются людьми в области агроэгентов. Кроме того, надзор за человеком естественным образом гарантирует безопасное развертывание.

Подводя итог, ключевой вклад нашей работы - этоРоман, целостный метод человека в петленазывается Transic, чтобы справиться с переносом политики для манипулирования. Благодаря обширной оценке мы показываем, что наш метод ведет кБолее эффективная передача с рисунком в реальностьпо сравнению с традиционными методами [51, 53] иТребуется меньше реальных данныхпо сравнению с распространенным имитационным обучением и алгоритмами офлайн RL [66–69]. Мы демонстрируем, что успешная передача навыков с коротким хоризоном может решитьДлинный хоризон, богатые контактами манипуляцииЗадачи в нашей повседневной деятельности, такие как сборка мебели. Видео и код доступны по адресу tranic-robot.github.io.

Эта статья естьДоступно на ArxivПод CC по лицензии 4.0.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE