
Новая модель Amazon Nova Sonic AI имеет «более человеческий голос»
15 апреля 2025 г.Amazon - последний технический гигант, который представит модель Voice AI. По словам Amazon, его Nova Sonic-«новая модель фундамента, которая объединяет понимание речи и генерацию речи в единую модель, чтобы обеспечить более человеческие голосовые разговоры в приложениях искусственного интеллекта». Nova Sonic будет конкурировать с аналогичными моделями ИИ от OpenAI, Google и других технологических компаний.
Нова Соник понимает больше, чем слова
Nova Sonic не просто понимает слова говорящего, но также может обработать тон, стиль и темп. Голосовой генератор ИИ адаптируется к контексту разговора, поэтому диалог течет более естественно, по сравнению с более искрытыми моделями из первых поколений Alexa. Nova Sonic может сделать это, потому что он объединяет несколько речевых обработок и генерации функций в одну модель искусственного интеллекта вместо использования нескольких разных моделей.
Традиционно, голосовые инструменты AI включали в себя запуск нескольких моделей в последовательности: модель распознавания речи будет преобразовать речи в текст, тогда большая языковая модель (LLM) обрабатывает входной текст и генерирует ответы, и, наконец, модель текста в речь будет преобразовать текст обратно в аудио. Этот сложный трубопровод часто лишил тон, стиль и ритм оригинального диалога динамика.
Поскольку Nova Sonic объединяет все это в одной модели, он может адаптироваться к акустическому контексту входной речи. Это также более естественно реагирует на кадохи человеческой речи; Например, это не прерывается, когда говорящий колеблется или делает паузу, чтобы сделать вдох.
Как получить Новую Соник
В настоящее время Nova Sonic доступна через новый API в Amazon Bedrock, корпоративной платформе построения приложений компании, и упростит разработку голосовых приложений.
Что разработчики должны знать об Amazon Nova
Технический гигант недавно представил Amazon Nova Act, новую модель искусственного интеллекта, обученную для выполнения действий в веб -браузере. Кроме того, для разработчиков есть Amazon Nova SDK. Одна из моделей Foundation-это Canvas Nova для создания высококачественных изображений; Существуют также модели для генерации текста из разных модальностей, а также видео из ввода текста и изображения.
Оригинал