ИИ текст до рейса превращает тексты в вокал, жесты и выражения лица

ИИ текст до рейса превращает тексты в вокал, жесты и выражения лица

8 августа 2025 г.

Аннотация и 1. Введение

  1. Связанная работа

    2.1 Текст на вокальное поколение

    2.2 Текст на генерацию движения

    2.3 Аудио до генерации движения

  2. Раскоростный набор данных

    3.1 Рэп-вокальное подмножество

    3.2 Подмножество рэп-движения

  3. Метод

    4.1 Составление проблемы

    4.2 Motion VQ-VAE Tokenizer

    4.3 Vocal2Unit Audio Tokenizer

    4.4 Общее авторегрессивное моделирование

  4. Эксперименты

    5.1 Экспериментальная установка

    5.2 Анализ основных результатов и 5.3 исследование абляции

  5. Заключение и ссылки

А. Приложение

Учитывая текст текста, наша цель-генерировать вокал в стиле рэп и движения всего тела, включая движения тела, жесты рук и выражения лица, которые резонируют с текстами. С помощью нашего быстрого набора данных мы предлагаем новую структуру, которая не только представляет тексты, вокал и движения в качестве единых форм токенов, но также интегрирует моделирование токенов в унифицированную модель. Как показано на рис. 3, наша модель состоит из множества токенизаторов для движения (раздел 4.2) и вокальных (сек. 4.3) преобразования токенов, а также общую модель фонда с большой текстовой фондом-аудио (раздел 4.4), которая предназначена для синтеза звука и создания токена движения, основанной на рэп.

4.1 Составление проблемы

Figure 3: Pipeline overview. We first pre-train all tokenizers on vocal-only and motion-only data. After we have pretrained the modality tokenizers, we can unify text, vocal, and motion in the same token space. We adopt a mixing organizing algorithm for input tokens to align via the temporal axis. These mixed input tokens are fed into the large Text-Motion-Audio foundation model to train on token prediction tasks, guided by the encoded features from textual input.

4.2 Motion VQ-VAE Tokenizer

4.3 Vocal2Unit Audio Tokenizer

В целом, мы используем самоотверженную структуру [45] в области речевого ресинтеза, чтобы изучить вокальные представления из аудио последовательностей. В частности, мы тренируем аудио -токенизатор Vocal2Unit, чтобы создать дискретное токеновое представление для человеческого пения. Вокальный токенизатор состоит из трех энкодеров и вокаду. Кодеры включают три разные части: (1) семантический энкодер; (2) энкодер F0; и (3) энкодер певца. Мы представим каждый компонент модели отдельно.

4.4 Общее авторегрессивное моделирование

После оптимизации с помощью этой цели обучения наша модель учится прогнозировать следующий токен, который может быть декодирован в различные функции модальности. Этот процесс похож на генерацию текстовых слов в языковых моделях, в то время как «слово» в нашем методе, например, <face_02123>, не имеет явной семантической информации, но может быть декодирована в непрерывные функции модальности.

Вывод и развязкаПолем На стадии вывода мы используем разные токены начала, чтобы указать, какой метод генерировать. Текстовый ввод кодируется как функции, направляемые к выводу в токен. Мы также принимаем алгоритм Top-K для управления разнообразием сгенерированного контента путем настройки температуры, поскольку генерирование вокала и движения, основанные на текстах, является процессом создания с несколькими возможными ответами. После прогнозирования токена алгоритм отделения используется для обработки выходных токенов, чтобы убедиться, что токены от разных методов отделяются и временно выровняются. Эти дискретные жетоны будут дополнительно расширены в вокалы и движения с выравниванием текста

Авторы:

(1) Цзябен Чен, Университет штата Массачусетс Амхерст;

(2) Синь Ян, Университет Ухана;

(3) Ихан Чен, Университет Ухан;

(4) Сиюань Сен, Университет штата Массачусетс Амхерст;

(5) Qinwei MA, Университет Цинхуа;

(6) Хаою Чжэнь, Университет Шанхай Цзяо Тонг;

(7) Каижи Цянь, MIT-IBM Watson AI Lab;

(8) ложь Лу, Dolby Laboratories;

(9) Чуан Ган, Университет штата Массачусетс Амхерст.


Эта статья естьДоступно на ArxivПод CC по лицензии 4.0.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE