
Что нужно для обучения системы ИИ универсальной речи
20 июня 2025 г.Таблица ссылок
Аннотация и 1 введение
2 подхода
2.1 Архитектура
2.2 Multimodal Trancing Paneletuning
2.3 Учебное обучение программы с эффективным характеристиком параметров
3 эксперименты
4 Результаты
4.1 Оценка моделей речи.
4.2 Обобщение между инструкциями
4.3 Стратегии повышения производительности
5 Связанная работа
6 Заключение, ограничения, заявление о этике и ссылки
Приложение
A.1 Audio Encoder перед тренировкой
A.2 Гиперпараметры
A.3 Задачи
A.3 Задачи
Мы предоставляем подробности о наших учебных задачах ниже, а также приводим в таблице 10 качественные примеры, чтобы лучше понять задачи.
Аср: Мы используем комбинацию из 5 общедоступных наборов данных для задачи ASR, которая составляет 3K часов парных аудио и текстовых данных. Мы оцениваем производительность на стандартных тестах для ASR.
Ул: Мы обучаем наши модели прогнозировать переводы на разных языках из аудионов, записанных английской речью. Токенизатор MACKBONE LLM ограничивает выбор того, что может быть потенциальным целевым языком. Для нашего случая мы тренируем и оцениваем переводы немецкого, французского и румынского набора данных Europarl [53]. Мы также дополняем учебные данные с помощью немецких и каталонских переводов из набора данных Covost2 [28].
IC/SF:Мы тренируем и оцениваем наши модели на подмножестве набора данных SLURP [25], который состоит из 10 классов намерения и 4 метки слотов. Это также позволяет нам изучать способность наших моделей обобщения на невидимых классовых метках, и мы отдельно изучаем ее в разделе 4.2. Классы намерений и метки слотов, которые выбираются для подмножества «видны», - это те, которые чаще всего встречаются в учебных данных. Подсказка для обучения, используемая для этой задачи, предназначена для содержания описания каждой метки класса.
KWE: Цель этой задачи - выявить важные ключевые слова в содержании речи в аудио. Поскольку для этой задачи не существует общедоступного набора данных, мы синтетически извлекаем ключевые слова из транскриптов основания истины, используя текстовую модель извлечения ключевых слов [4]. Затем они используются в качестве ярлыков для обучения и оценки наших моделей.
KWS: Это задача бинарной классификации, чтобы определить, было ли произнесено указанное ключевое слово в аудио или нет. Мы создаем положительные выборки, случайным образом выбирая ключевые слова из основных транскриптов истины и отрицательных выборок, выбирая ключевое слово, которое не появляется в транскрипте. Положительные и отрицательные примеры создаются в соотношении 70-30 соответственно как для обучения, так и для оценки.
Эр: Для распознавания эмоций мы классифицируем речь в один из четырех основных классов эмоций: нейтральный, счастливый, грустный и злой, выбранный на основе наличия образцов обучения в наборе данных V1.11 MSP-Podcast [54]. Мы сообщаем метрики о соответствующей подмноге с четырьмя эмоциями в разделении Test1 набора данных.
Аскет: Для классификации звуков, мы классифицируем речь как положительную, отрицательную или нейтральную по настроению. Метки настроения были получены путем пороговой шкалы валентной шкалы (аннотированные от 1 до 7) с 3 и 5. Мы тренируемся на весь тренировочный раздел набора данных MSP-Podcast v1.11 и оцениваем соответствующее разделение Test1.
В: Для подсчета спикеров мы определяем, присутствует ли один или два оратора. Мы тренируемся на сегментах от транскриптов набора данных Fisher [29, 30] с одним или двумя динамиками и оцениваем тест Фишера, используемый в [55].
Атмосфера: Мы тренируем наши модели для классификации речи на пять акцентов на английском языке: канадский, индийский, австралийский, британский и американский, используя метаданные из набора голосовых данных Mozilla Common.
SNS: В этой задаче мы определяем, присутствует ли речь в аудио. Мы собираем разнообразный набор аудио с речью и без этого для обучения наших моделей и оцениваем их по комбинации сегментов речевых наборов речевых наборов Hub5 [56] и удержанных сегментов не высказывания в нашей собственной коллекции.
Авторы:
(1) Nilaksh Das, AWS AI Labs, Amazon и равный вклад;
(2) Saket Dingliwal, AWS AI Labs, Amazon (skdin@amazon.com);
(3) Шрикант Ронанки, AWS AI Labs, Amazon;
(4) Рохит Патури, AWS AI Labs, Amazon;
(5) Zhaocheng Huang, AWS AI Labs, Amazon;
(6) Prashant Mathur, AWS AI Labs, Amazon;
(7) Цзе Юань, AWS AI Labs, Amazon;
(8) Дхануш Бекал, AWS AI Labs, Amazon;
(9) Син Ниу, AWS AI Labs, Amazon;
(10) Sai Muralidhar Jayanthi, AWS AI Labs, Amazon;
(11) Xilai Li, AWS AI Labs, Amazon;
(12) Карел Мунднич, AWS AI Labs, Amazon;
(13) Моника Сункара, AWS AI Labs, Amazon;
(14) Даниэль Гарсия-Ромеро, AWS AI Labs, Amazon;
(15) Кю Дж. Хан, AWS AI Labs, Amazon;
(16) Катрин Кирххофф, AWS AI Labs, Amazon.
Эта статья есть
[4] https://huggingface.co/voicelab/vlt5-base-keywords
Оригинал