tech-stories zero-shot-learning instruction-finetuning audio-language-model multimodal-learning speech-processing automatic-speech-recognition generalization-capability multitask-learning

Объединение аудио ввода и текстовых инструкций в одну унифицированную модель

20 июня 2025 г.

Таблица ссылок

Аннотация и 1 введение

2 подхода

2.1 Архитектура

2.2 Multimodal Trancing Paneletuning

2.3 Учебное обучение программы с эффективным характеристиком параметров

3 эксперименты

4 Результаты

4.1 Оценка моделей речи.

4.2 Обобщение между инструкциями

4.3 Стратегии повышения производительности

5 Связанная работа

6 Заключение, ограничения, заявление о этике и ссылки

Приложение

A.1 Audio Encoder перед тренировкой

A.2 Гиперпараметры

A.3 Задачи

Многозадачное обучение.Предыдущие исследования показали, что одна модель глубокого обучения способна совместно изучать несколько крупномасштабных задач в разных областях [42]. Ключевая идея в обучении с несколькими задачами заключается в том, чтобы использовать общие представления по соответствующим задачам для повышения общего обобщения и эффективности. После этого подхода модель T5 [43] создает все текстовые задачи в качестве текста в указании, используя унифицированную текстовую структуру, которая облегчает общие представления по текстовым задачам. Аналогичным образом, SpeechNet [44] и SpeechT5 [19] используют общую структуру энкодера-декодера для совместных моделей речевых и текстовых методов, охватывающих 5-6 задач, такие как TTS, ASR и преобразование голоса (VC). Виола [15], единственная сеть автоматического регрессивного трансформатора только для декодеров, объединяет различные межмодальные речевые и текстовые задачи в виде модели языка условного кодека с помощью многозадачного обучения. Whisper [20] также использует крупномасштабное многозадачное обучение, обучение соответствующим речевым задачам, включая идентификацию языка, распознавание речи и перевод. В этой работе Speechverse использует многозадачную

Table 10: Qualitative examples of output from all the training tasks on a audio file with transcription "turn on the radio now"

Обучение для передачи знаний между несколькими связанными задачами при использовании инструкций естественного языка для выполнения каждой задачи. В отличие от предыдущей работы, которая сгенерировала текст, речь или оба, наш метод фокусируется исключительно на производстве текстовых выводов, одновременно принимая аудио и текстовые инструкции.

Мультимодальные большие языковые модели.Предыдущая работа по мультимодальной LLMS была сосредоточена главным образом на задачах с участием изображений, таких как генерация изображений, ответ на визуальные вопросы и подписание изображений [4, 9, 45, 46]. Мультимодальные модели, включающие методы, такие как аудио и речь, получили относительно меньшее внимание по сравнению с моделями зрения и языка [47–49]. Тем не менее, растут интерес к увеличению больших языковых моделей с аудиобатными, что приводит к нескольким предлагаемым подходам [8, 14, 17, 18, 50–52]. Речигпт [18] предложил мультимодальную LLM, объединяющую дискретные единицы Хьюберта с LLM, чтобы решить несколько понимающих задач, таких как ASR, разговорный QA, а также задачи поколения, такие как TTS. [17] представляет новые возможности с нулевым выстрелом, посвященным более разнообразным задачам, таким как генерация диалогов, продолжение речи и ответ на вопросы. Совсем недавно [16] предложили Qwen-Audio, крупномасштабную аудиоязычную модель, обученную с использованием многозадачного подхода к обучению для выполнения разнообразных задач по различным типам аудио, включая человеческие речи, естественные звуки, музыку и песни. Qwen-Audio использует единый аудиокодер для обработки различных типов аудио, инициализация которых основана на модели Whisper-Large-V2 [20] и выполняет полное создание. Напротив, наша работа использует две замороженные модели, предварительно предварительную, по одной для речевого кодера и текстового декодера, чтобы сохранить свои внутренние сильные стороны. Кроме того, мы используем более 30 инструкций для каждой задачи во время обучения для улучшения обобщения, тогда как [17] использует единую фиксированную инструкцию. Кроме того, Speechverse включает в себя многозадачное обучение и создание обучения на одном этапе обучения.

Авторы:

(1) Nilaksh Das, AWS AI Labs, Amazon и равный вклад;

(2) Saket Dingliwal, AWS AI Labs, Amazon (skdin@amazon.com);

(3) Шрикант Ронанки, AWS AI Labs, Amazon;

(4) Рохит Патури, AWS AI Labs, Amazon;

(5) Zhaocheng Huang, AWS AI Labs, Amazon;

(6) Prashant Mathur, AWS AI Labs, Amazon;

(7) Цзе Юань, AWS AI Labs, Amazon;

(8) Дхануш Бекал, AWS AI Labs, Amazon;

(9) Син Ниу, AWS AI Labs, Amazon;

(10) Sai Muralidhar Jayanthi, AWS AI Labs, Amazon;

(11) Xilai Li, AWS AI Labs, Amazon;

(12) Карел Мунднич, AWS AI Labs, Amazon;

(13) Моника Сункара, AWS AI Labs, Amazon;

(14) Даниэль Гарсия-Ромеро, AWS AI Labs, Amazon;

(15) Кю Дж. Хан, AWS AI Labs, Amazon;

(16) Катрин Кирххофф, AWS AI Labs, Amazon.

Эта статья естьДоступно на ArxivПод CC по лицензии 4.0.

Оригинал

Объединение аудио ввода и текстовых инструкций в одну унифицированную модель

Таблица ссылок

Recent Post

Bitpanda запускает Defi Wallet для Power Europe в будущее Onchain

Как Toyota Blockchain Lab хочет сделать автомобили готовыми к финансированию: Внутри предложения Toyota's Mon предложение

Получение звонков клиентов по бюджету в размере 0 долларов США: уроки от стартапа репетиторства

За кулисами эксперимента парного программирования

Простое руководство по измерению времени и труда в программировании

Categories