tech-stories zero-shot-learning instruction-finetuning audio-language-model multimodal-learning speech-processing automatic-speech-recognition generalization-capability multitask-learning

Что нужно для обучения системы ИИ универсальной речи

20 июня 2025 г.

Таблица ссылок

Аннотация и 1 введение

2 подхода

2.1 Архитектура

2.2 Multimodal Trancing Paneletuning

2.3 Учебное обучение программы с эффективным характеристиком параметров

3 эксперименты

4 Результаты

4.1 Оценка моделей речи.

4.2 Обобщение между инструкциями

4.3 Стратегии повышения производительности

5 Связанная работа

6 Заключение, ограничения, заявление о этике и ссылки

Приложение

A.1 Audio Encoder перед тренировкой

A.2 Гиперпараметры

A.3 Задачи

Мы предоставляем подробности о наших учебных задачах ниже, а также приводим в таблице 10 качественные примеры, чтобы лучше понять задачи.

Аср: Мы используем комбинацию из 5 общедоступных наборов данных для задачи ASR, которая составляет 3K часов парных аудио и текстовых данных. Мы оцениваем производительность на стандартных тестах для ASR.

Ул: Мы обучаем наши модели прогнозировать переводы на разных языках из аудионов, записанных английской речью. Токенизатор MACKBONE LLM ограничивает выбор того, что может быть потенциальным целевым языком. Для нашего случая мы тренируем и оцениваем переводы немецкого, французского и румынского набора данных Europarl [53]. Мы также дополняем учебные данные с помощью немецких и каталонских переводов из набора данных Covost2 [28].

IC/SF:Мы тренируем и оцениваем наши модели на подмножестве набора данных SLURP [25], который состоит из 10 классов намерения и 4 метки слотов. Это также позволяет нам изучать способность наших моделей обобщения на невидимых классовых метках, и мы отдельно изучаем ее в разделе 4.2. Классы намерений и метки слотов, которые выбираются для подмножества «видны», - это те, которые чаще всего встречаются в учебных данных. Подсказка для обучения, используемая для этой задачи, предназначена для содержания описания каждой метки класса.

KWE: Цель этой задачи - выявить важные ключевые слова в содержании речи в аудио. Поскольку для этой задачи не существует общедоступного набора данных, мы синтетически извлекаем ключевые слова из транскриптов основания истины, используя текстовую модель извлечения ключевых слов [4]. Затем они используются в качестве ярлыков для обучения и оценки наших моделей.

KWS: Это задача бинарной классификации, чтобы определить, было ли произнесено указанное ключевое слово в аудио или нет. Мы создаем положительные выборки, случайным образом выбирая ключевые слова из основных транскриптов истины и отрицательных выборок, выбирая ключевое слово, которое не появляется в транскрипте. Положительные и отрицательные примеры создаются в соотношении 70-30 соответственно как для обучения, так и для оценки.

Эр: Для распознавания эмоций мы классифицируем речь в один из четырех основных классов эмоций: нейтральный, счастливый, грустный и злой, выбранный на основе наличия образцов обучения в наборе данных V1.11 MSP-Podcast [54]. Мы сообщаем метрики о соответствующей подмноге с четырьмя эмоциями в разделении Test1 набора данных.

Аскет: Для классификации звуков, мы классифицируем речь как положительную, отрицательную или нейтральную по настроению. Метки настроения были получены путем пороговой шкалы валентной шкалы (аннотированные от 1 до 7) с 3 и 5. Мы тренируемся на весь тренировочный раздел набора данных MSP-Podcast v1.11 и оцениваем соответствующее разделение Test1.

В: Для подсчета спикеров мы определяем, присутствует ли один или два оратора. Мы тренируемся на сегментах от транскриптов набора данных Fisher [29, 30] с одним или двумя динамиками и оцениваем тест Фишера, используемый в [55].

Атмосфера: Мы тренируем наши модели для классификации речи на пять акцентов на английском языке: канадский, индийский, австралийский, британский и американский, используя метаданные из набора голосовых данных Mozilla Common.

SNS: В этой задаче мы определяем, присутствует ли речь в аудио. Мы собираем разнообразный набор аудио с речью и без этого для обучения наших моделей и оцениваем их по комбинации сегментов речевых наборов речевых наборов Hub5 [56] и удержанных сегментов не высказывания в нашей собственной коллекции.

Авторы:

(1) Nilaksh Das, AWS AI Labs, Amazon и равный вклад;

(2) Saket Dingliwal, AWS AI Labs, Amazon (skdin@amazon.com);

(3) Шрикант Ронанки, AWS AI Labs, Amazon;

(4) Рохит Патури, AWS AI Labs, Amazon;

(5) Zhaocheng Huang, AWS AI Labs, Amazon;

(6) Prashant Mathur, AWS AI Labs, Amazon;

(7) Цзе Юань, AWS AI Labs, Amazon;

(8) Дхануш Бекал, AWS AI Labs, Amazon;

(9) Син Ниу, AWS AI Labs, Amazon;

(10) Sai Muralidhar Jayanthi, AWS AI Labs, Amazon;

(11) Xilai Li, AWS AI Labs, Amazon;

(12) Карел Мунднич, AWS AI Labs, Amazon;

(13) Моника Сункара, AWS AI Labs, Amazon;

(14) Даниэль Гарсия-Ромеро, AWS AI Labs, Amazon;

(15) Кю Дж. Хан, AWS AI Labs, Amazon;

(16) Катрин Кирххофф, AWS AI Labs, Amazon.

Эта статья естьДоступно на ArxivПод CC по лицензии 4.0.

[4] https://huggingface.co/voicelab/vlt5-base-keywords

Оригинал

Что нужно для обучения системы ИИ универсальной речи

Таблица ссылок

A.3 Задачи

Recent Post

Bitpanda запускает Defi Wallet для Power Europe в будущее Onchain

Как Toyota Blockchain Lab хочет сделать автомобили готовыми к финансированию: Внутри предложения Toyota's Mon предложение

Получение звонков клиентов по бюджету в размере 0 долларов США: уроки от стартапа репетиторства

За кулисами эксперимента парного программирования

Простое руководство по измерению времени и труда в программировании

Categories