machine-learning ai-generated-music text-to-motion-ai multimodal-transformers rapverse-dataset autoregressive-transformer human-motion-synthesis text-to-speech-models smpl-x-motion-data

ИИ текст до рейса превращает тексты в вокал, жесты и выражения лица

8 августа 2025 г.

Таблица ссылок

Аннотация и 1. Введение

Связанная работа
2.1 Текст на вокальное поколение
2.2 Текст на генерацию движения
2.3 Аудио до генерации движения
Раскоростный набор данных
3.1 Рэп-вокальное подмножество
3.2 Подмножество рэп-движения
Метод
4.1 Составление проблемы
4.2 Motion VQ-VAE Tokenizer
4.3 Vocal2Unit Audio Tokenizer
4.4 Общее авторегрессивное моделирование
Эксперименты
5.1 Экспериментальная установка
5.2 Анализ основных результатов и 5.3 исследование абляции
Заключение и ссылки

А. Приложение

Учитывая текст текста, наша цель-генерировать вокал в стиле рэп и движения всего тела, включая движения тела, жесты рук и выражения лица, которые резонируют с текстами. С помощью нашего быстрого набора данных мы предлагаем новую структуру, которая не только представляет тексты, вокал и движения в качестве единых форм токенов, но также интегрирует моделирование токенов в унифицированную модель. Как показано на рис. 3, наша модель состоит из множества токенизаторов для движения (раздел 4.2) и вокальных (сек. 4.3) преобразования токенов, а также общую модель фонда с большой текстовой фондом-аудио (раздел 4.4), которая предназначена для синтеза звука и создания токена движения, основанной на рэп.

4.1 Составление проблемы

4.2 Motion VQ-VAE Tokenizer

4.3 Vocal2Unit Audio Tokenizer

В целом, мы используем самоотверженную структуру [45] в области речевого ресинтеза, чтобы изучить вокальные представления из аудио последовательностей. В частности, мы тренируем аудио -токенизатор Vocal2Unit, чтобы создать дискретное токеновое представление для человеческого пения. Вокальный токенизатор состоит из трех энкодеров и вокаду. Кодеры включают три разные части: (1) семантический энкодер; (2) энкодер F0; и (3) энкодер певца. Мы представим каждый компонент модели отдельно.

4.4 Общее авторегрессивное моделирование

После оптимизации с помощью этой цели обучения наша модель учится прогнозировать следующий токен, который может быть декодирован в различные функции модальности. Этот процесс похож на генерацию текстовых слов в языковых моделях, в то время как «слово» в нашем методе, например, <face_02123>, не имеет явной семантической информации, но может быть декодирована в непрерывные функции модальности.

Вывод и развязкаПолем На стадии вывода мы используем разные токены начала, чтобы указать, какой метод генерировать. Текстовый ввод кодируется как функции, направляемые к выводу в токен. Мы также принимаем алгоритм Top-K для управления разнообразием сгенерированного контента путем настройки температуры, поскольку генерирование вокала и движения, основанные на текстах, является процессом создания с несколькими возможными ответами. После прогнозирования токена алгоритм отделения используется для обработки выходных токенов, чтобы убедиться, что токены от разных методов отделяются и временно выровняются. Эти дискретные жетоны будут дополнительно расширены в вокалы и движения с выравниванием текста

Авторы:

(1) Цзябен Чен, Университет штата Массачусетс Амхерст;

(2) Синь Ян, Университет Ухана;

(3) Ихан Чен, Университет Ухан;

(4) Сиюань Сен, Университет штата Массачусетс Амхерст;

(5) Qinwei MA, Университет Цинхуа;

(6) Хаою Чжэнь, Университет Шанхай Цзяо Тонг;

(7) Каижи Цянь, MIT-IBM Watson AI Lab;

(8) ложь Лу, Dolby Laboratories;

(9) Чуан Ган, Университет штата Массачусетс Амхерст.

Эта статья естьДоступно на ArxivПод CC по лицензии 4.0.

Оригинал

ИИ текст до рейса превращает тексты в вокал, жесты и выражения лица

Таблица ссылок

4.1 Составление проблемы

4.2 Motion VQ-VAE Tokenizer

4.3 Vocal2Unit Audio Tokenizer

4.4 Общее авторегрессивное моделирование

Recent Post

Superintelligence может начать новую эру личных возможностей

В одном приглашении будет то, что ИИ рэп и танцы

Раскоростный набор данных: новый эталон в создании текста до музыки и движения

Мультимодальный набор данных для синтеза рэп -вокала и трехмерного движения

Этот ИИ превращает тексты в полностью синхронизированные песни и танцевальные выступления

Categories