Этот новый голосовой помощник с искусственным интеллектом превзошел OpenAI в одной из самых ожидаемых функций ChatGPT.
6 июля 2024 г.OpenAI's задержка Впечатляющий голосовой режим ChatGPT расстроил многие поклонники чат-бота с искусственным интеллектом, но теперь их, возможно, перехватили. Французский разработчик искусственного интеллекта Kyutai представил голосового помощника с искусственным интеллектом в реальном времени по имени Моши.
Moshi предназначен для обеспечения реалистичного общения с пользователями посредством голоса, например Alexa или Google Assistant, но в данном случае он работает на основе больших языковых моделей, лежащих в основе ChatGPT и его конкурентов. , модель Гелий 7Б. По словам Кютая, Моши может говорить с разными акцентами и владеет 70 различными эмоциональными и разговорными стилями. ИИ может даже обрабатывать два аудиопотока одновременно, позволяя Моши одновременно слушать и говорить.
Разработка Moshi Кютаем включала в себя тонкую настройку более 100 000 синтетических диалогов, созданных с использованием технологии преобразования текста в речь (TTS). . Целью было научить Моши нюансам и тонам человеческого общения. Бренд даже сотрудничал с профессиональным художником по озвучке, чтобы улучшить качество голоса Moshi.
Этот ИИ-помощник объединяет в себе текстовое и аудиообучение, оптимизирован для нескольких серверов, что означает, что его можно запускать на таких устройствах, как ноутбуки, без необходимости взаимодействия с облако. Компания позиционирует это как способ сохранить конфиденциальность и безопасность, предотвращая передачу конфиденциальных данных через Интернет. Демо-версию Moshi можно посмотреть здесь.
Открытый разговор
Кютай заявил, что Moshi будет проектом с открытым исходным кодом, включая коды и структуру модели, что обеспечит основу для дальнейших инноваций. Подход с открытым исходным кодом может также помочь смягчить жалобы, с которыми сталкиваются крупные компании, занимающиеся искусственным интеллектом, по поводу безопасности и этики в отношении их закрытых моделей. Сторонники Кютая, в том числе французский миллиардер Ксавье Ниль, продвигают подход с открытым исходным кодом.
Кютай также работает над системами аудиоидентификации, нанесения водяных знаков и отслеживания подписей с использованием искусственного интеллекта, которые будут включены в Moshi. Эти функции помогут идентифицировать аудио, сгенерированный ИИ, обеспечивая подотчетность и отслеживаемость, а также гарантируя возможность мониторинга и проверки контента, сгенерированного ИИ.
Moshi все еще находится в разработке, но голосовой режим в презентации впечатляет. Голосовой подход может послужить катализатором для других голосовых версий конкурентов ChatGPT или ускорить добавление LLM к Alexa и другим голосовым помощникам, если Moshi приживется и станет популярным.
Если вы хотите попробовать Moshi, воспользуйтесь демо
a> доступен онлайн, и вы также можете подписаться на ранний доступ к полной версии чат-бота.
Вам также может понравиться...
- Поклонники ChatGPT в ярости, поскольку OpenAI задерживает внедрение голосового режима следующего поколения
- ChatGPT демонстрирует впечатляющий голосовой режим в новой демо-версии – и это может быть вкус новой Siri
- Оставшиеся фанаты ChatGPT подали петицию с просьбой вернуть спорный голос чат-бота Sky
Оригинал