Совместное моделирование текста, аудио и трехмерного движения с использованием Rapverse
8 августа 2025 г.Таблица ссылок
Аннотация и 1. Введение
Связанная работа
2.1 Текст на вокальное поколение
2.2 Текст на генерацию движения
2.3 Аудио до генерации движения
Раскоростный набор данных
3.1 Рэп-вокальное подмножество
3.2 Подмножество рэп-движения
Метод
4.1 Составление проблемы
4.2 Motion VQ-VAE Tokenizer
4.3 Vocal2Unit Audio Tokenizer
4.4 Общее авторегрессивное моделирование
Эксперименты
5.1 Экспериментальная установка
5.2 Анализ основных результатов и 5.3 исследование абляции
Заключение и ссылки
А. Приложение
6 Заключение
В этой работе мы представляем новую структуру для одновременного поколения трехмерных движений всего тела и поют вокал непосредственно из текстовых текстов. Чтобы решить эту сложную задачу, мы сначала собираем Rapverse, большой набор данных, содержащий синхронный рэп-вокал, наряду с текстами и трехмерными движениями всего тела. Используя Rapverse, мы демонстрируем, что простое масштабирование авторегрессивных трансформаторов по языку, аудио и движению дает последовательное поколение поющего вокала и трехмерные целостные человеческие движения. Мы ожидаем, что эта работа вдохновит новые возможности в совместном моделировании текста, аудио и движения.
Ограничения и будущие работы.Одним из ограничений Rapverse является то, что в настоящее время он ограничен поколением рэп -музыки, исключая другие музыкальные жанры. Тем не менее, мы хотим подчеркнуть, что наш метод представляет собой общую структуру, которая может быть гибко использовать в других сценариях для совместного аудио и генерации движения, если они предоставлены наборами данных. Другое важное будущее направление находится в многопрофессиональном аудио и генерации движений, которое можно использовать в современных музыкальных выступлениях, таких как виртуальные живые группы.
Ссылки
[1] Андреа Агостинелли, Тимо I Денк, Залан Борс, Джесси Энгель, Мауро Верцетти, Антуан Кайллон, Цинцин Хуанг, Арен Янсен, Адам Робертс, Марко Тэглиасаччи и др. Musiclm: генерирование музыки из текста. Arxiv Preprint arxiv: 2301.11325, 2023.
[2] Чайтанья Ахаджа и Луи-Филипп. Language2s: Natural Language Breneed Pose прогнозирование. В 2019 году Международная конференция по 3D Vision (3DV), страницы 719–728. IEEE, 2019.
[3] Чжэ Цао, Томас Саймон, Ши-Эн Вей и Язер шейх. Реальная многопользовательская оценка 2D POSE с использованием части сродства частично. В материалах конференции IEEE по компьютерному видению и распознаванию образцов, страницы 7291–7299, 2017.
[4] Синь Чен, Биао Цзян, Вэнь Лю, Зилонг Хуанг, Бин Фу, Тао Чен и Ганг Ю. Выполнение ваших команд с помощью диффузии движения в скрытом пространстве. В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию шаблонов, страницы 18000–18010, 2023.
[5] Даниэль Кудеро, Тимо Болкарт, Кэссиди Лейдлоу, Анураг Ранджан и Майкл Дж. Блэк. Захват, обучение и синтез 3D -разговорных стилей. В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию шаблонов, страницы 10101–10111, 2019.
[6] Прафулла Дхаривал, Хевоу Джун, Кристина Пейн, Чон Вук Ким, Алек Рэдфорд и Илью Сатскевер. Jukebox: генеративная модель для музыки. Arxiv Preprint arxiv: 2005.00341, 2020.
[7] Джефф Донахью, Сандер Дилеман, Миколай Бинковски, Эрих Эльсен и Карен Симоньян. Скводится на состязательный текст в речь. Arxiv Preprint arxiv: 2006.03575, 2020.
[8] Чжиан Дуан, Хаотиан Фанг, Бо Ли, Хе Чай Сим и Йе Ван. NUS Sung and Contkude Trics Corpus: Количественное сравнение пения и речи. В 2013 году ежегодный саммит и конференция Ассоциации сигналов и обработки информации Азиатско-Тихоокеанского региона, страницы 1–9. IEEE, 2013.
[9] Габриэле Фанелли, Юрген Галл, Харальд Ромсдорфер, Тибо Вайз и Люк Ван Гул. Трехмерный аудиовизуальный корпус аффективного общения. IEEE транзакции на мультимедиа, 12 (6): 591–598, 2010.
[10] Илва Ферстл и Рэйчел Макдоннелл. Исследование использования рецидивирующего моделирования движения для генерации речевых жестов. В материалах 18 -й Международной конференции по интеллектуальным виртуальным агентам, страницы 93–98, 2018.
[11] Аниндита Гош, Ношаба Чима, Ценнет Огуз, Кристиан Теобальт и Филипп Слюсаллек. Синтез композиционных анимаций из текстовых описаний. В материалах Международной конференции IEEE/CVF по компьютерному видению, страницы 1396–1406, 2021.
[12] Шири Джиносар, Амир Бар, Гефен Кохави, Кэролайн Чан, Эндрю Оуэнс и Джитендра Малик. Изучение индивидуальных стилей разговорного жеста. В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию шаблонов, страницы 3497–3506, 2019.
[13] Чуан Го, Шихао Зу, Синсин Зуо, Сен Ван, Вэй Джи, Синью Ли и Ли Ченг. Создание разнообразных и естественных трехмерных человеческих движений из текста. В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию шаблонов, страницы 5152–5161, 2022.
[14] Чуан Го, Синсин Зуо, Сен Ван и Ли Ченг. TM2T: стохастическое и токеновое моделирование для взаимного генерации трехмерных человеческих движений и текстов. На европейской конференции по компьютерному видению, страницы 580–597. Springer, 2022.
[15] Ихсанул Хабиби, Вейпенг Сюй, Душьянт Мехта, Линджи Лю, Ганс-Петер Сейдель, Джерард Понс-Молл, Мохамед Элгариб и Кристиан Теобальт. Учебные речи 3D-разговорные жесты из видео. В материалах 21 -й Международной конференции ACM по интеллектуальным виртуальным агентам, страницы 101–108, 2021.
[16] Jinzheng He, Jinglin Liu, Zhenhui Ye, Rongjie Huang, Chenye Cui, Huadai Liu и Zhou Zhao. RMSSINGER: Реалистичный синтез пения на основе реалистичного балла. Arxiv Preprint arxiv: 2305.10686, 2023.
[17] Георг Хейголд, Игнасио Морено, Сами Бенгио и Ноам Шейзер. Текст-зависимая от текстовой проверки динамика. В 2016 году Международная конференция IEEE по акустике, речевой и сигнальной обработке (ICASSP), стр. 5115–5119. IEEE, 2016.
[18] Ромен Хеннекин, Анис Хлиф, Феликс Войтарет и Мануэль Муссаллам. Sleeteter: быстрый и эффективный инструмент разделения источника музыки с предварительно обученными моделями. Журнал программного обеспечения с открытым исходным кодом, 5 (50): 2154, 2020.
[19] Ромен Хеннекин, Анис Хлиф, Феликс Войтарет и Мануэль Муссаллам. Sleeteter: быстрый и эффективный инструмент разделения источника музыки с предварительно обученными моделями. Журнал программного обеспечения с открытым исходным кодом, 5 (50): 2154, 2020. Deezer Research.
[20] Wei-enn Hsu, Yao-Hung Hubert Tsai, Benjamin Bolte, Ruslan Salakhutdinov и Абдельрахман Мохамед. Хьюберт: Насколько плохой учитель может принести пользу предварительному обучению ASR? В ICASSP 2021-2021 IEEE Международная конференция по акустике, обработке речи и сигнала (ICASSP), стр. 6533–6537. IEEE, 2021.
[21] Цинцин Хуанг, Даниэль С. Парк, Тао Ванг, Тимо Я Денк, Энди Ли, Нанкин Чен, Чжэндонг Чжан, Чхишуай Чжан, Цзяхуи Ю, Кристиан Франк и др. Noise2music: генерация музыки с кондиционером с диффузионными моделями. Arxiv Preprint arxiv: 2302.03917, 2023.
[22] Ронгджи Хуанг, Фейян Чен, И Рен, Цзинлин Лю, Чени Куй и Чжоу Чжао. Multi-Singer: Fast Multi-Singer Singer Singe Vocoder с крупномасштабным корпусом. В материалах 29 -й Международной конференции ACM по мультимедиа, страницы 3945–3954, 2021.
[23] Биао Цзян, Синь Чен, Вэнь Лю, Цзини Ю, Ганг Ю и Тао Чен. MotionGPT: человеческое движение как иностранный язык. Достижения в системах обработки нейронной информации, 36, 2024.
[24] Кавита Каси и Стивен азахориан. Еще один алгоритм для отслеживания высоты тона. В 2002 году Международная конференция IEEE по акустике, речи и обработке сигналов, том 1, страницы I - 361. IEEE, 2002.
[25] Jihoon Kim, Jiseob Kim и Sungjoon Choi. Пламя: свободно формирующаяся языковая синтез движения и редактирование. В материалах конференции AAAI по искусственному интеллекту, том 37, страницы 8255–8263, 2023.
[26] Sungjae Kim, Yewon Kim, Jewooo Jun и Inrung Kim. Muse-SVS: мульти-сингер-эмоциональный поющий голосовой синтезатор, который контролирует эмоциональную интенсивность. IEEE/ACM Транзакции по аудио, речи и языковой обработке, 2023.
[27] Кушал Лахотия, Юджин Харитонов, Вей-Рин Хсу, Йосси Ади, Адам Поляк, Бенджамин Болте, Ту-Ан Нгуен, Джейд Копет, Алексей Баевски, Абдельрахман Мохамед, et al. О генеративном моделировании разговорного языка из необработанного аудио. Транзакции Ассоциации вычислительной лингвистики, 9: 1336–1354, 2021.
[28] Джордж Лакофф и Марк Джонсон. Метафоры, которые мы живем. Университет Чикагской Прессы, издание 2003 года, 1980. Впервые опубликовано 1 января 1980 года.
[29] Руилонг Ли, Шан Ян, Дэвид А. Росс и Анги Каназава. Ай Хореограф: Созданный музыкой 3D -танцевальный поколение с AIST ++. В материалах Международной конференции IEEE/CVF по компьютерному видению, страницы 13401–13412, 2021.
[30] Цзин Лин, больной Зенг, Шунлин Лу, Юанхао Кай, Руимао Чжан, Хаоциан Ван и Лей Чжан. Motion-X: крупномасштабный трехмерный набор данных для человеческого движения всего тела. Достижения в системах обработки нейронной информации, 36, 2024.
[31] Хайян Лю, Зихао Чжу, Джорджио Бекини, Йихен Пенг, Миньян Су, ты Чжоу, Наоя Ивамото, Бо Чжэн и Майкл Дж. Блэк. EMAGE: На пути к единой целостной генерации жестов с речью через моделирование звуковых жестов в масках. Arxiv Preprint arxiv: 2401.00374, 2023.
[32] Цзинлин Лю, Ченгси Ли, И Рен, Фейян Чен и Чжоу Чжао. Diffsinger: поет синтез голоса с помощью механизма мелкого диффузии. В материалах конференции AAAI по искусственному интеллекту, том 36, страницы 11020–11028, 2022.
[33] Шухонг Лу, Янгву Юн и Эндрю Фэн. Синтез жеста с речи с использованием дискретного обучения токеном жеста. Arxiv Preprint arxiv: 2303.12822, 2023.
[34] Шунлин Лу, Лин-Хао Чен, больной Зенг, Цзин Лин, Руимао Чжан, Лей Чжан и Хьюнг-Юн Шум. Humantomato: выровненная текстовая генерация движения всего тела. Arxiv Preprint arxiv: 2310.12978, 2023.
[35] Наурин Махмуд, Нима Горбани, Николаус Ф. Трое, Джерард Понс-Молл и Майкл Дж. Блэк. Получить: архив захвата движения в виде поверхностных форм. В материалах Международной конференции IEEE/CVF по компьютерному видению, страницы 5442–5451, 2019.
[36] Брайан Макфи, Колин Раффел, Дауэн Лян, Даниэль П.В. Эллис, Мэтт Маквикар, Эрик Баттенберг и Ориол Ньето. Librosa: анализ аудио и музыкального сигнала в Python. В Scipy, страницы 18–24, 2015.
[37] Донгчан Мин, Донг Бок Ли, Юнхо Ян и Сунг Джу Хван. Мета-стильпидж: многогазное адаптивное поколение текста в речь. На Международной конференции по машинному обучению, страницы 7748–7759. PMLR, 2021.
[38] Томохиро Накатани, Шигеки Амано, Тошио Ирино, Кентаро Ишизука и Тадахиса Кондо. Метод оценки фундаментальной частоты и решения о голосовании: применение к младенческим высказываниям, зарегистрированным в реальных акустических средах. Речевое общение, 50 (3): 203–214, 2008.
[39] Итуки Огава и Масанори Моризе. База данных по пению Tohoku Kiritan: база данных по пению для статистического параметрического синтеза пения с использованием японских поп -песен. Акустическая наука и технология, 42 (3): 140–145, 2021.
[40] Аарон Ван Ден Оорд, Сандер Дилиман, Хейга Зен, Карен Симонян, Ориол Виньялс, Алекс Грейвс, Нал Калхбреннер, Эндрю старший и Корай Кавуккуоглу. Wavenet: генеративная модель для необработанного аудио. Arxiv Preprint arxiv: 1609.03499, 2016.
[41] Вассил Панайоток, Гугуо Чен, Даниэль Поуи и Санджив Худанпур. Librispeech: корпус ASR, основанный на аудиокнигах общественного достояния. В 2015 году Международная конференция IEEE по акустике, речевой и сигнальной обработке (ICASSP), стр. 5206–5210. IEEE, 2015.
[42] Джорджиос Павлакос, Василиос Чутас, Нима Горбани, Тимо Болкарт, Ахмед А.А. Осман, Димитриос Ционас и Майкл Дж. Блэк. Экспрессивный захват тела: 3D руки, лицо и тело с одного изображения. В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию шаблонов, страницы 10975–10985, 2019.
[43] Матис Петрович, Майкл Дж. Блэк и Гюль Варол. ТЕМОС: генерирование разнообразных человеческих движений из текстовых описаний. На европейской конференции по компьютерному видению, страницы 480–497. Springer, 2022.
[44] Матиас Плпперт, Кристиан Манда и Тамим Асфур. Набор данных на языке движения. Большие данные, 4 (4): 236–252, 2016.
[45] Адам Поляк, Йосси Ади, Джейд Копет, Юджин Харитонов, Кушал Лахотия, Вей-Рин Хсу, Абдельрахман Мохамед и Эммануэль Дюпо. Речь пересекает от дискретных распущенных самоотверженных представлений. Arxiv Preprint arxiv: 2104.00355, 2021.
[46] Алек Рэдфорд, Чон Вук Ким, Тао Сюй, Грег Брокман, Кристина Маклави и Илью Сатскевер. Устойчивое распознавание речи посредством крупномасштабного слабого надзора, 2022.
[47] Алек Рэдфорд, Чон Вук Ким, Тао Сюй, Грег Брокман, Кристина Маклави и Илью Сатскевер. Устойчивое распознавание речи с помощью крупномасштабного слабого надзора. На Международной конференции по машинному обучению, страницы 28492–28518. PMLR, 2023.
[48] Колин Раффел, Ноам Шейзер, Адам Робертс, Кэтрин Ли, Шаран Наранг, Майкл Матена, Янки Чжоу, Вэй Ли и Питер Дж Лю. Изучение пределов обучения передачи с помощью единого трансформатора текста в текст. Журнал исследований машинного обучения, 21 (140): 1–67, 2020.
[49] Али Разави, Аарон Ван ден Оорд и Ориол Виналс. Создание разнообразных изображений с высокой точностью с VQ-VAE-2. Достижения в области систем обработки нейронной информации, 32, 2019.
[50] Джозеф Редмон и Али Фархади. Yolov3: постепенное улучшение. Arxiv Preprint arxiv: 1804.02767, 2018.
[51] Йи Рен, Ченксу Ху, Сюй Тан, Тао Цинь, Шэн Чжао, Чжоу Чжао и Тил-Янь Лю. Fastspeech 2: Быстрый и высококачественный сквозной текст к речи. Arxiv Preprint arxiv: 2006.04558, 2020.
[52] Йи Рен, Янгджун Руан, Сюй Тан, Тао Цинь, Шенг Чжао, Чжоу Чжао и Тил-Янь Лю. Fastspeech: быстрый, надежный и управляемый текст к речи. Достижения в области систем обработки нейронной информации, 32, 2019.
[53] Йи Рен, Сюй Тан, Тао Цинь, Цзянь Луан, Чжоу Чжао и Тил-Янь Лю. Deepsinger: петь голосовой синтез с данными, добываемыми из Интернета. В материалах 26 -й Международной конференции ACM SIGKDD по обнаружению знаний и добыче данных, страницы 1979–1989, 2020.
[54] Flavio Schneider, Ojasv Kamal, Zhijing Jin и Bernhard Schölkopf. MO \ ˆ USAI: генерация текста в музыку с латентной диффузией с длинным контекстом. Arxiv Preprint arxiv: 2301.11757, 2023.
[55] Бидиша Шарма, Сяксокс Гао, Картика Виджаян, Сяхай Тянь и Хайчхоу Ли. NHSS: параллельная база данных речи и пения. Речевое общение, 133: 9–22, 2021.
[56] Шуай Шен, Вэньлиан Чжао, Зибин Мэн, Ванхуа Ли, Чжэн Чжу, Цзе Чжоу и Дживен Лу. Difftalk: создание диффузионных моделей для обобщенного синтеза говорящей головы. Arxiv Preprint arxiv: 2301.03786, 2023.
[57] Кента Такеучи, Суихиру Кубота, Кейсуке Сузуки, Дай Хасегава и Хироши Сакута. Создание набора данных жеста для речи для создания автоматических жестов на основе речи. В HCI International 2017 -Posters's расширенные тезисы: 19 -я Международная конференция, HCI International 2017, Ванкувер, Британская Колумбия, Канада, 9–14 июля 2017 года, Материалы, часть I 19, страницы 198–202. Springer, 2017.
[58] Хироки Тамару, Шинносуке Такамичи, Наоко Танджи и Хироши Саруватари. JVS-MUSIC: японский мультиспикерский поющий глагол. Arxiv Preprint arxiv: 2001.07044, 2020.
[59] Сара Тейлор, Тэхван Ким, Йисонг Юэ, Моше Малер, Джеймс Крахе, Анастасио Гарсия Родригес, Джессика Ходгинс и Иэн Мэтьюз. Глубокий подход обучения для обобщенной речевой анимации. Транзакции ACM на графике (TOG), 36 (4): 1–11, 2017.
[60] Захари Тид и Цзя Дэн. Плот: рецидивирующие полевые преобразования поля для оптического потока. В Computer Vision - ECCV 2020: 16 -я Европейская конференция, Глазго, Великобритания, 23–28 августа 2020 года, Труды, часть II 16, страницы 402–419. Springer, 2020.
[61] Гай Тевет, Сигал Рааб, Брайан Гордон, Йонатан Шафир, Даниэль Коэн-Ор и Амит Хермано. Модель диффузии движения человека. Arxiv Preprint arxiv: 2209.14916, 2022.
[62] Жан-Марк Валин и Ян Скоглунд. LPCnet: улучшение синтеза нейронной речи за счет линейного прогноза. В ICASSP 2019-2019 IEEE Международная конференция по акустике, обработке речи и сигнала (ICASSP), стр. 5891–5895. IEEE, 2019.
[63] Aaron van Den Oord, Oriol Vinyanals, et al. Нейронное дискретное представление обучение. Достижения в области систем обработки нейронной информации, 30, 2017.
[64] Ю Ван, Синшенг Ванг, Пенгчэн Чжу, Цзе Ву, Ханжао Ли, Хейанг Сюэ, Йонгмао Чжан, Лей Си и Менгсиао Би. Opencpop: высококачественный китайский популярный корпус песен с открытым исходным кодом для синтеза по пению голоса. Arxiv Preprint arxiv: 2201.07429, 2022.
[65] Ченг-Хсин Вуу, Ниньюан Чжэн, Скотт Ардиссон, Рохан Бали, Даниэль Белко, Эрик Брокмейер, Лукас Эванс, Тимоти Годисарт, Хёвон Х.А., Сюхуа Хуанг и др. Multiface: набор данных для рендеринга нейронного лица. Arxiv Preprint arxiv: 2207.11243, 2022.
[66] Джинбо Син, Менган Ся, Юхен Чжан, Сяодон Кун, Джуэ Ван и Тен-Цин Вонг. Codetalker: речевая трехмерная анимация лица с дискретным движением В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию шаблонов, страницы 12780–12790, 2023.
[67] Генг Ян, Шан Ян, Кай Лю, Пенг Фанг, Вэй Чен и Лей Си. Многополосный Мелган: более быстрое генерация формы волны для высококачественного текста в речь. В 2021 году семинар по технологиям разговорного языка IEEE (SLT), стр. 492–498. IEEE, 2021.
[68] Хонгвей Йи, Хуалин Лян, Йифеи Лю, Ционг Цао, Яндонг Вэнь, Тимо Болкарт, Дахенг Тао и Майкл Дж. Блэк. Генерирование целостного трехмерного человеческого движения от речи. В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию шаблонов, страницы 469–480, 2023.
[69] Цзяньронг Чжан, Янсонг Чжан, Сяодонг Кун, Шаоли Хуанг, Юн Чжан, Хонгвей Чжао, Хонгтао Лу и Си Шен. T2M-GPT: генерирование движения человека из текстовых описаний с дискретными представлениями. Arxiv Preprint arxiv: 2301.06052, 2023.
[70] Личао Чжан, Руики Ли, Шоутонг Ван, Ликун Денг, Цзинлин Лю, И Рен, Джинджэн Х. Х., Ронгджи Хуанг, Джиминг Чжу, Сяо Чен и др. M4Singer: мульти-синджер и музыкальный счет, многодейный, предоставил мандаринский пение корпус. Достижения в системах обработки нейронной информации, 35: 6914–6926, 2022.
[71] Миньюан Чжан, Чжунганг Кай, Лян Пан, Фанчжоу Хонг, Синьинг Го, Лей Ян и Зивей Лю. MotionDiffuse: Текстовая генерация движения человека с диффузионной моделью. IEEE транзакции по анализу шаблонов и машинного интеллекта, 2024.
[72] Венксуан Чжан, Сяодон Кун, Сюань Ван, Юн Чжан, Си Шен, Ю Го, Йин Шан и Фей Ван. Sadtalker: изучение реалистичных трехмерных коэффициентов движения для стилизованного аудио-ориентированного одиночного изображения. Говоря об анимации лица. В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию шаблонов, страницы 8652–8661, 2023.
[73] Ю Чжан, Ронгджи Хуанг, Руици Ли, Джинджэн Х. Х., Ян Ся, Фейян Чен, Синю Дуан, Баакс Хуай и Чжоу Чжао. Stylesinger: стиль переноса для синтеза голоса вне домена. Arxiv Preprint arxiv: 2312.10741, 2023.
[74] Зеванг Чжан, Йибин Чжэн, Синьхуй Ли и Ли Лу. Уэзингер: Синтез по пению по пению по пению с помощью вспомогательных потерь. Arxiv Preprint arxiv: 2203.10750, 2022.
Авторы:
(1) Цзябен Чен, Университет штата Массачусетс Амхерст;
(2) Синь Ян, Университет Ухана;
(3) Ихан Чен, Университет Ухан;
(4) Сиюань Сен, Университет штата Массачусетс Амхерст;
(5) Qinwei MA, Университет Цинхуа;
(6) Хаою Чжэнь, Университет Шанхай Цзяо Тонг;
(7) Каижи Цянь, MIT-IBM Watson AI Lab;
(8) ложь Лу, Dolby Laboratories;
(9) Чуан Ган, Университет штата Массачусетс Амхерст.
Эта статья есть
Оригинал