Единый мультимодальный подход к обработке речи с помощью LLMS

Единый мультимодальный подход к обработке речи с помощью LLMS

20 июня 2025 г.

Аннотация и 1 введение

2 подхода

2.1 Архитектура

2.2 Multimodal Trancing Paneletuning

2.3 Учебное обучение программы с эффективным характеристиком параметров

3 эксперименты

4 Результаты

4.1 Оценка моделей речи.

4.2 Обобщение между инструкциями

4.3 Стратегии повышения производительности

5 Связанная работа

6 Заключение, ограничения, заявление о этике и ссылки

Приложение

A.1 Audio Encoder перед тренировкой

A.2 Гиперпараметры

A.3 Задачи

6 Заключение

В этой работе мы предлагаем Sheepverse, мультимодальную структуру, которая позволяет LLMS следовать инструкциям по естественному языку для выполнения разнообразных задач обработки речи. Благодаря контролируемому обучению и объединению представлений от замороженных предварительно обученных моделей речи и текстовых фондов, Speechverse достигает сильного обобщения с нулевым выстрелом по невидимым задачам. Обширное сравнительный анализ против обычных базовых показателей показывает превосходство Speechverse на 9 из 11 задач, демонстрируя его грозные инструкции после возможностей. Важно отметить, что Speechverse поддерживает надежную производительность на наборах данных вне доменов, невидимых подсказок и даже невидимых задач. Это подчеркивает эффективность предлагаемой нами методологию обучения в том, чтобы наполнить модель моделью обобщенным навыком для картирования текстовых инструкций с выходами обработки речи. Двигаясь вперед, мы стремимся расширить возможности Speechverse следовать еще более сложным инструкциям и обобщать новые области. Отделяя спецификацию задачи от дизайна модели, Speechverse представляет универсальную структуру, которая может динамически адаптироваться к новым задачам с помощью естественного языка без переподготовки.

Ограничения

В то время как эта работа продемонстрировала сильные инструкции после возможностей для многозадачных речевых речевых модели по различным задачам, остаются некоторые ограничения. Исследование основывалось на одной базовой архитектуре LLM (FLANT5), а не на изучении более поздних моделей, адаптированных для следующих инструкций. Кроме того, существует компромисс между обобщенными возможностями по невидимым задачам и специализированной производительности по оригинальным учебным задачам, которые создают проблемы для одной многозадачной модели. В то время как модель показала перспективу при обращении с различными невидимыми задачами, ее ограничения не были полностью охарактеризованы по широкому объему возможных инструкций, и производительность по этим невидимым задачам не измеряется количественно.

Этика заявление

Все наборы данных, которые мы используем, имеют анонимные динамики. У нас нет никакого доступа и не пытаться создать какую -либо PII (личную идентифицируемую информацию) докладчиков, и наша модель не идентифицирует динамиков и не использует акустические встраивания. Большая часть работы использовала общедоступные наборы данных с открытым исходным кодом как для обучения, так и для тестирования. Внутренние наборы данных, используемые для предварительного обучения Best-RQ Encoder и SNS-задачи, собираются через сторонних поставщиков речевых данных. Никаких дополнительных сборов данных, не сделанных в отношении работы, проведенной в этой статье.

Ссылки

[1] T. Brown et al., «Языковые модели-это несколько выстрелов», достижения в области нейронных систем обработки информации, вып. 33, с. 1877–1901, 2020.

[2] A. Chowdhery et al., «Палм: масштабирование языкового моделирования с путями», Journal of Machine Learning Research, Vol. 24, нет. 240, с. 1–113, 2023.

[3] A. Radford, K. Narasimhan, T. Salimans, I. Sutskever, et al., «Улучшение понимания языка путем генеративного предварительного обучения», 2018.

[4] J. Achiam et al., «Технический отчет GPT-4», Arxiv Preprint Arxiv: 2303.08774, 2023.

[5] H. W. Chung et al., «Модели с помощью инструкций по масштабированию, а также Arxiv Preprint arxiv: 2210.11416, 2022.

[6] L. Ouyang et al., «Модели языка обучения, чтобы следовать инструкциям с обратной связью с человека», «Достижения в системах обработки нейронной информации», Vol. 35, с. 27 730–27 744, 2022.

[7] H. Touvron et al., «Llama: открытые и эффективные языковые модели фундамента», Arxiv Preprint Arxiv: 2302.13971, 2023.

[8] R. Huang et al., «Audiogpt: понимание и генерирование речи, музыки, звука и говорящей головы», Arxiv Preprint arxiv: 2304.12995, 2023.

[9] T. Gemini et al., «Близнецы: семейство высокоэффективных мультимодальных моделей», Arxiv Preprint Arxiv: 2312.11805, 2023.

[10] T. Guo et al., «Многоагенты на основе большого языка: обзор прогресса и проблем», Arxiv Preprint Arxiv: 2402.01680, 2024.

[11] W. R. Huang et al., «Многоязычный и полностью неавторегрессивный ASR с большим слиянием модели языка: всестороннее исследование», Arxiv Preprint Arxiv: 2401.12789, 2024.

[12] Y. Li, Y. Wu, J. Li и S. Liu, «Побуждая большие языковые модели для адаптации с нулевым выстрелом в распознавании речи», в Proc. Автоматическое распознавание и понимание речи (ASRU), IEEE, 2023, с. 1–8.

[13] Р. М.А., М. Цянь, П. Манакул, М. Гейлс и К. Книлл, «Могут ли генеративные крупные языковые модели выполнить коррекцию ошибок ASR?» Arxiv Preprint arxiv: 2307.04172, 2023.

[14] П. К. Рубенштейн и др., «Аудиопалм: большая языковая модель, которая может говорить и слушать», Arxiv Preprint Arxiv: 2306.12925, 2023.

[15] Т. Ван и др., «Виола: унифицированные языковые модели кодека для распознавания речи, синтеза и перевода», Arxiv Preprint arxiv: 2305.16107, 2023.

[16] Y. Chu et al., «Qwen-Audio: продвижение универсального понимания аудио с помощью единых крупномасштабных аудиоязычных моделей», Arxiv Preprint arxiv: 2311.07919, 2023.

[17] M. Wang et al., «SLM: преодолеть тонкий разрыв между речевыми и текстовыми моделями», в Proc. Автоматическое распознавание и понимание речи (ASRU), IEEE, 2023, с. 1–8.

[18] D. Zhang et al., «Речигпт: расширение возможностей крупных языковых моделей с внутренними кросс-модальными разговорными способностями», Arxiv Preprint arxiv: 2305.11000, 2023.

[19] J. AO et al., «Речь»: предварительное обучение Encoder-Decoder Unified-Modal для обработки разговорного языка », Arxiv Preprint Arxiv: 2110.07205, 2021.

[20] А. Рэдфорд, Дж. У. Ким, Т. Сюй, Г. Брокман, С. Маклави и И. Саускевер, «Прочное распознавание речи посредством крупномасштабного слабого надзора», в Proc. ICML, 2023, с. 28 492–28 518.

[21] E.J. Hu et al., Lora: адаптация с низким уровнем ранга крупных языковых моделей, 2021. Arxiv: 2106.09685 [Cs.Cl].

[22] V. Panayotov, G. Chen, D. Povey и S. Khudanpur, «Librispeech: ASR -корпус, основанный на аудиокнигах общественного достояния», в 2015 году Международной конференции IEEE по акустике, обработке речи и сигналов (ICASSP), IEEE, 2015, стр. 5206–5210. [23] R. Ardila et al., «Общий голос: массово мультиязычный речевой корпус», Arxiv Preprint Arxiv: 1912.06670, 2019.

[24] O. Dekel и O. Shamir, «Vox Populi: сбор высококачественных ярлыков из толпы», в Colt, 2009.

[25] E. Bastianelli, A. Vanzo, P. Swietojanski и V. Rieser, «Slurp: A A A Arable Trange Package», Arxiv Preprint Arxiv: 2011.13205, 2020.

[26] P. Koehn, «Europarl: параллельный корпус для статистического машинного перевода», в «Слушаниях машинного перевода» Саммит X: Papers, 2005, с. 79–86.

[27] Р. Лотфиан и С. Бусо, «Создание натуралистического эмоционально сбалансированного речевого корпуса путем извлечения эмоциональной речи из существующих записей подкастов», IEEE Transactions на Affective Computing, Vol. 10, нет. 4, с. 471–483, 2017.

[28] C. Wang, A. Wu и J. Pino, «Covost 2 и массово многоязычный перевод речи в текст», Arxiv Preprint Arxiv: 2007.10310, 2020.

[29] e. а Cieri Christopher, «Рыбая английская тренировка речи, часть 1 речь LDC2004S13», Загрузка веб -сайта. Филадельфия: Лингвистический консорциум данных, 2004.

[30] e. а Cieri Christopher, «Fisher English Training, часть 2, речь LDC2005S13», Скачать веб -сайт. Филадельфия: лингвистический консорциум данных, 2005.

[31] R. Taori et al., Стэнфордская альпака: модель Llama, посвященная инструкциям, 2023. [32] S. Chen et al., «Wavlm: крупномасштабная самоотверженная предварительная тренировка для полной обработки речи», IEEE Journal по выбранным темам в обработке сигнала, вып. 16, с. 1505–1518, 2021.

[33] C.-C. Chiu, J. Qin, Y. Zhang, J. Yu и Y. Wu, «Самоподобное обучение с квантователем случайной проекции для распознавания речи», в Международной конференции по машинному обучению, PMLR, 2022, с. 3915–3924.

[34] A. Bapna et al., «Mslam: массово многоязычное предварительное обучение суставов для речи и текста», Arxiv Preprint arxiv: 2202.01374, 2022.

[35] Бесплатная связь и др., SeamlessM4T: Массивно многоязычный и мультимодальный трансляция машины, 2023. Arxiv: 2308.11596 [Cs.Cl].

[36] X. Li et al., «Многоязычный речевой перевод от эффективного создания предварительных моделей», в «Слушаниях 59 -го ежегодного собрания Ассоциации вычислительной лингвистики и 11 -й Международной совместной конференции по обработке естественного языка» (том 1: Долговые документы), C. Zong, F. Sia, W. Li и R. Navigli, Eds., Online: Assocatist. 827–838. Doi: 10.18653/v1/2021.Acl- Long.68. [Онлайн]. Доступно: https://aclanthology.org/2021.acl-long.68.

[37] S. Seo, D. Kwak и B. Lee, «Интеграция предварительно обученных сетей с непрерывным интерфейсом токена для понимания сквозного разговорного языка», в Proc. ICASSP, 2022, с. 7152–7156.

[38] Y. Wang, A. Boumadane и A. Heba, «Точный настройка WAV2VEC 2.0/Hubert Clandmark для распознавания эмоций речи, проверки спикеров и понимания разговорного языка», Arxiv Preprint Arxiv: 2111.02735, 2022.

[39] A. Derington, H. Wierstorf, A. Ozkil, F. Eyben, F. Burkhardt и B. W. Schuller, «Тестирование речевых моделей распознавания эмоций», Arxiv Preprint Arxiv: 2312.06270, 2023.

[40] Б. Т. Уиллард и Р. Луф, «Эффективное управляемое поколение для LLM», Arxiv Preprint Arxiv: 2307.09702, 2023.

[41] J. Wei et al., «Появление цепочки мыслей вызывает рассуждения в крупных языковых моделях», «Достижения в системах обработки нейронной информации», Vol. 35, с. 24 824–24 837, 2022.

[42] L. Kaiser et al., «Одна модель для их изучения», Arxiv Preprint Arxiv: 1706.05137, 2017.

[43] C. Raffel et al., «Изучение ограничений обучения передачи с помощью единого трансформатора текста в текст», журнал исследований машинного обучения, вып. 21, нет. 1, с. 5485–5551, 2020.

[44] Y.-C. Chen et al., «Speechnet: универсальная модульная модель для задач обработки речи», Arxiv Preprint Arxiv: 2105.03070, 2021.

[45] J.-B. Alayrac et al., «Flamingo: модель визуального языка для нескольких выстрелов», «Достижения в системах обработки нейронной информации», Vol. 35, с. 23 716–23 736, 2022.

[46] J. Li, D. Li, C. Xiong и S. Hoi, «Blip: Bootstrapping Language-Image Pre Training для объединенного понимания и поколения на языке зрения», в Международной конференции по машинному обучению, PMLR, 2022, с. 12 888–12 900.

[47] Дж. Ю. Ко, Р. Салахутдинов и Д. Фрид, «Модели языка заземления для изображений для мультимодальных входов и выходов», в Международной конференции по машинному обучению, PMLR, 2023, с. 17 283–17 300.

[48] ​​Z. Peng et al., «Kosmos-2: заземление мультимодальных крупных языковых моделей для мира», Arxiv Preprint arxiv: 2306.14824, 2023.

[49] К. Чжоу, Дж. Ян, С. С. Лой и З. Лю, «Обучение моделям на языке зрений», Международный журнал Computer Vision, Vol. 130, нет. 9, с. 2337–2348, 2022.

[50] S. Deshmukh, B. Elizalde, R. Singh и H. Wang, «Pengi: модель звука для аудио -задач», Arxiv Preprint Arxiv: 2305.11834, 2023.

[51] Y. Gong, H. Luo, A. H. Liu, L. Karlinsky и J. Glass, «Послушайте, думайте и понимаете», Arxiv Preprint Arxiv: 2305.10790, 2023.

[52] Y. Shu et al., «Llasm: Большой язык и речевая модель», Arxiv Preprint arxiv: 2308.15930, 2023.

[53] J. Iranzo-Sánchez et al., «Europarl-St: многоязычный корпус для перевода речи парламентских дебатов», в ICASSP 2020-2020 IEEE Международная конференция по акустике, речи и обработке сигналов (ICASSP), 2020, с. 8229–8233.

[54] Р. Лотфиан и С. Бусо, «Создание натуралистического эмоционально сбалансированного речевого корпуса путем получения эмоциональной речи из существующих записей подкастов», IEEE Transactions on Advective Computing, Vol. 10, нет. 4, стр. 471–483, октябрь 2019. DOI: 10.1109/taffc.2017.2736999.

[55] Р. Патури, С. Сринивасан и Х. Ли, «Коррекция ошибок лексического динамика: использование языковых моделей для коррекции ошибок динамики дипортажа», в Proc. Interspeech 2023, 2023, с. 3567–3571. Doi: 10.21437/Interspeech.2023-1982.

[56] e. а Cieri Christopher, «2000 HUB5 English Excalation Swight LDC2002S09», Загрузка веб -сайта. Филадельфия: лингвистический консорциум данных, 2002.

Авторы:

(1) Nilaksh Das, AWS AI Labs, Amazon и равный вклад;

(2) Saket Dingliwal, AWS AI Labs, Amazon (skdin@amazon.com);

(3) Шрикант Ронанки, AWS AI Labs, Amazon;

(4) Рохит Патури, AWS AI Labs, Amazon;

(5) Zhaocheng Huang, AWS AI Labs, Amazon;

(6) Prashant Mathur, AWS AI Labs, Amazon;

(7) Цзе Юань, AWS AI Labs, Amazon;

(8) Дхануш Бекал, AWS AI Labs, Amazon;

(9) Син Ниу, AWS AI Labs, Amazon;

(10) Sai Muralidhar Jayanthi, AWS AI Labs, Amazon;

(11) Xilai Li, AWS AI Labs, Amazon;

(12) Карел Мунднич, AWS AI Labs, Amazon;

(13) Моника Сункара, AWS AI Labs, Amazon;

(14) Даниэль Гарсия-Ромеро, AWS AI Labs, Amazon;

(15) Кю Дж. Хан, AWS AI Labs, Amazon;

(16) Катрин Кирххофф, AWS AI Labs, Amazon.


Эта статья естьДоступно на ArxivПод CC по лицензии 4.0.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE