
Тьютор ИИ настоящий, и он уже здесь
4 июня 2025 г.Авторы:
(1) Юнфан Цзян, факультет информатики;
(2) Чен Ван, кафедра компьютерных наук;
(3) Руохан Чжан, Департамент информатики и Институт ИИ, ориентированного на человека (HAI);
(4) Цзяджун Ву, Департамент информатики и Институт ИИ, ориентированного на человека (HAI);
(5) Ли Фей-Фей, Департамент информатики и Институт ИИ, ориентированного на человека (HAI).
Таблица ссылок
Аннотация и 1 введение
2 предварительные
3 Transic: передача политики с рисованием в реальность путем обучения на онлайн-коррекции и 3.1 базовые политики обучения в моделировании с RL
3.2 ОБУЧЕНИЯ ОТРИЦИЯ ПОЛИТИКИ ОТНОВЛЕНИЯ НАУКЦИИ
3.3 Интегрированная структура развертывания и 3,4 Подробности реализации
4 эксперименты
4.1 Настройки эксперимента
4.2 Количественное сравнение по четырем задачам сборки
4.3 Эффективность в решении различных разрывов с рисунком (Q4)
4.4 Масштабируемость с человеческими усилиями (Q5) и 4,5 интригующих свойств и возникающего поведения (Q6)
5 Связанная работа
6 Заключение и ограничения, подтверждения и ссылки
А. Подробная информация об обучении симуляции
Б. Реальные детали обучения в реальном мире
C. Настройки эксперимента и детали оценки
D. Дополнительные результаты эксперимента
Абстрактный: Обучение в моделировании и передаче научной политики в реальное мир имеет потенциал для обеспечения роботов -универсал. Ключевая задача этого подхода-это рассмотрение пробелов моделирования к реальности (SIM-SIM-REAL). Предыдущие методы часто требуют домена знания априори. Мы утверждаем, что простой способ получить такие знания - просить людей наблюдать и оказать помощь в реализации политики робота в реальном мире. Роботы могут затем учиться у людей, чтобы закрыть различные промежутки с рисованием. Мы предлагаем Transic, основанный на данных подход, чтобы обеспечить успешную передачу SIM-к реальности на основе рамки от человека в петле. Transic позволяет людям целостно расширять политику моделирования, чтобы преодолеть различные бесконечные промежутки с рисованием с рисованием в результате вмешательства и онлайн-коррекции. Остаточные политики можно извлечь из поправки людей и интегрировать с политикой моделирования для автономного исполнения. Мы показываем, что наш подход может достичь успешного переноса с рисованием в реальность в сложных и богатых контактных задачах, таких как сборка мебели. Благодаря синергетической интеграции политики, изученной в моделировании и от людей, транзик эффективен как целостный подход к решению различных, часто сосуществующих пробелов с рисованием. Он отображает привлекательные свойства, такие как масштабирование с человеческими усилиями. Видео и код доступны по адресу tranic-robot.github.io.
1 Введение
Обучение в моделировании-это потенциальный подход к реализации генеральных роботов, способных решать сложные задачи принятия решений [1, 2]. Обучение для решения этих задач требует большого количества учебных данных [3–5]. Обеспечение неограниченного учебного надзора [6] посредством современного моделирования [7–11] может облегчить бремя сбора данных в реальном мире с физическими роботами [12, 13]. Следовательно, крайне важно для беспрепятственной передачи и развертывания политик управления роботами, полученными при моделировании, обычно посредством обучения подкреплению (RL), в реальное оборудование. Успешные демонстрации этого подхода к моделированию к реальности (SIM-TO-REAL) были продемонстрированы в ловких манипуляциях в руке [14–18], четвероногих локомоции [19–22], двуночном локомоции [23–28] и полете квадтотора [29, 30].
Тем не менее, воспроизведение аналогичного успеха в задачах манипуляции с роботизированными руками остается удивительно сложным, с лишь несколькими случаями в простых неподчисых манипуляциях (таких как вытягивание, толкание и поворот объектов) [31–34], отраслевая сборка под ограниченными условиями [35–39], открытие ящика [40] и качание PEG [40]. Трудность в основном связана с неизбежными промежутками с рисованием с рисунком [11, 41], включая, но не ограничиваясь разрывом восприятия [19, 42–44], несоответствием воплощения [19, 45, 46], неточности контроллера [47–49] и динамического реализма [50]. Традиционно исследователи решают эти разрывы с рисунком и задачу передачи посредством идентификации системы [19, 31, 51, 52], рандомизации домена [14, 53–55], реальной адаптации [56, 57] и увеличения симулятора [58–60]. Многие из этих подходов требуют явных, специфических для домена и знаний о задачах или симуляторах. Хотя для конкретной пары моделирования реальности, может быть
Существуют специфические индуктивные смещения, которые могут быть изготовлены вручную после того, чтобы закрыть разрыв с рисованием [19] [19], такие знания часто не доступны априори. Определение его влияния на выполнение задач также неразрешимо.
Мы утверждаем, что простым и возможным способом для людей получить такие знания, чтобы наблюдать и помочь выполнению политики в реальном мире. Если люди могут помочь роботу успешно выполнить задачи в реальном мире, эффективно решаются пробелы с рисованием. Это, естественно, приводит к общеприменимой парадигме, которая может охватывать различные априоры по моделированию и реалиям-обучению человека в петле [61–63] и общей автономии [64, 65].
Наше ключевое понимание состоит в том, что структура человека в петле является многообещающей для решения проблемы с рисованием в реальном времени в целом, в которых люди напрямую помогают физическим роботам во время выполнения политики, предоставляя сигналы онлайн-коррекции. Знания, необходимые для закрытия пробелов с рисованием, могут быть изучены из человеческих сигналов. С этой целью мы представляем транзик (передача политики SIM-в-реальность, обучаясь на онлайн-коррекции, рис. 1), подход, управляемый данными, позволяющий успешно передавать политику манипуляции с роботами, обученные RL в моделировании в реальном мире. В Tranicic, как только базовая политика робота будет получена в результате симуляционного обучения, они развернуты на реальных роботах, где человеческие операторы контролируют исполнение. Когда робот совершает ошибки или застревает, люди прерывают и помогают политике роботов посредством телеоперации. Такие данные о вмешательстве человека собираются для обучения остаточной политики, после чего базовая политика и остаточная политика объединяются для решения задач манипуляции с богатыми контактами, таких как сборка мебели. Благодаря синергетической интеграции с предыдущими подходами, поскольку люди могут успешно помочь роботу, обученному в Силико выполнять реальные задачи, промежутки с рисованием с рисунком неявно обрабатываются и решаются людьми в области агроэгентов. Кроме того, надзор за человеком естественным образом гарантирует безопасное развертывание.
Подводя итог, ключевой вклад нашей работы - этоРоман, целостный метод человека в петленазывается Transic, чтобы справиться с переносом политики для манипулирования. Благодаря обширной оценке мы показываем, что наш метод ведет кБолее эффективная передача с рисунком в реальностьпо сравнению с традиционными методами [51, 53] иТребуется меньше реальных данныхпо сравнению с распространенным имитационным обучением и алгоритмами офлайн RL [66–69]. Мы демонстрируем, что успешная передача навыков с коротким хоризоном может решитьДлинный хоризон, богатые контактами манипуляцииЗадачи в нашей повседневной деятельности, такие как сборка мебели. Видео и код доступны по адресу tranic-robot.github.io.
Эта статья есть
Оригинал