Этот новый голосовой помощник с искусственным интеллектом превзошел OpenAI в одной из самых ожидаемых функций ChatGPT.

Этот новый голосовой помощник с искусственным интеллектом превзошел OpenAI в одной из самых ожидаемых функций ChatGPT.

6 июля 2024 г.

OpenAI's задержка Впечатляющий голосовой режим ChatGPT расстроил многие поклонники чат-бота с искусственным интеллектом, но теперь их, возможно, перехватили. Французский разработчик искусственного интеллекта Kyutai представил голосового помощника с искусственным интеллектом в реальном времени по имени Моши. 

Moshi предназначен для обеспечения реалистичного общения с пользователями посредством голоса, например Alexa или Google Assistant, но в данном случае он работает на основе больших языковых моделей, лежащих в основе ChatGPT и его конкурентов. , модель Гелий 7Б. По словам Кютая, Моши может говорить с разными акцентами и владеет 70 различными эмоциональными и разговорными стилями. ИИ может даже обрабатывать два аудиопотока одновременно, позволяя Моши одновременно слушать и говорить.

Разработка Moshi Кютаем включала в себя тонкую настройку более 100 000 синтетических диалогов, созданных с использованием технологии преобразования текста в речь (TTS). . Целью было научить Моши нюансам и тонам человеческого общения. Бренд даже сотрудничал с профессиональным художником по озвучке, чтобы улучшить качество голоса Moshi.

Этот ИИ-помощник объединяет в себе текстовое и аудиообучение, оптимизирован для нескольких серверов, что означает, что его можно запускать на таких устройствах, как ноутбуки, без необходимости взаимодействия с облако. Компания позиционирует это как способ сохранить конфиденциальность и безопасность, предотвращая передачу конфиденциальных данных через Интернет. Демо-версию Moshi можно посмотреть здесь.

Открытый разговор

Кютай заявил, что Moshi будет проектом с открытым исходным кодом, включая коды и структуру модели, что обеспечит основу для дальнейших инноваций. Подход с открытым исходным кодом может также помочь смягчить жалобы, с которыми сталкиваются крупные компании, занимающиеся искусственным интеллектом, по поводу безопасности и этики в отношении их закрытых моделей. Сторонники Кютая, в том числе французский миллиардер Ксавье Ниль, продвигают подход с открытым исходным кодом.

Кютай также работает над системами аудиоидентификации, нанесения водяных знаков и отслеживания подписей с использованием искусственного интеллекта, которые будут включены в Moshi. Эти функции помогут идентифицировать аудио, сгенерированный ИИ, обеспечивая подотчетность и отслеживаемость, а также гарантируя возможность мониторинга и проверки контента, сгенерированного ИИ.

Moshi все еще находится в разработке, но голосовой режим в презентации впечатляет. Голосовой подход может послужить катализатором для других голосовых версий конкурентов ChatGPT или ускорить добавление LLM к Alexa и другим голосовым помощникам, если Moshi приживется и станет популярным. 

Если вы хотите попробовать Moshi, воспользуйтесь демо

a> доступен онлайн, и вы также можете подписаться на ранний доступ к полной версии чат-бота. 

Вам также может понравиться...


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE