
Текст на Voice? Нет, это что-то большее: текст к эмоции.
6 июня 2025 г.Вопрос больше нет,«Это звучит человеческое?»
Его,«Как ты хочешь, чтобы это было похоже?»
И этот сдвиг может быть самой важной вещью, происходящей в ИИ, ориентированном на потребителей.
Шестьдесят дней назад я написал о том, какЯ неосознанно слушал музыку, сгенерированную AIИз -за новой модели, которая породила музыку таким образом, это было тонким, почти окружающим.
То, что я слушал на этой неделе в речевом пространстве ИИ, совсем не тонкое.
Недавние выпуски сделали такой скачок вперед, что у общественности теперь есть доступ к голосовым моделям, которые не простосказатьСлова, это выполняет их. По сигналу. В реальном времени. С эмоциональной точностью, которая ощущается ... откровенно, как что -то прямо изГораПолем
Мы перестали пытаться сделать машины звучать человеком - это сделано - мы сейчас обучаем ихдействоватьПолем
Голос, который берет направление
Мы вступили в фазу, где ИИ на самом деле можетвыполнятьПолем
Это не просто выходит на выходную речь, это обеспечивает намерение. Настроение. Эмоция
Новая модель OpenAudio, доступная в Fish Audio, позволяет настроить сценарий, который включает эмоциональные или тональные маркеры, такие как (саркастически), (с энтузиазмом) или (взволнован). Это также может включать в себя специальные маркеры, такие как (смех), (рыдание) или (задыхаясь). Менее чем за минуту я дал ему свой собственный голос и дал результаты, которые были бы достаточно хороши, чтобы кого -то обмануть. Если бы я потратил немного больше времени, я уверен, что смогу получить это в страшное место. Я не был удивлен, увидев OpenAudio на вершине рейтинга TTS Arena Hugging Face для выразительности:
Но реальная история о сдвиге в творческом контроле. Вы можете шептать, рыдать, кричать, подчеркнуть, отступать.
Это разыгрывается в ландшафте голоса искусственного интеллекта, но, что интересно, когда каждый конкурент, по -видимому, набрал в своем собственном сегменте: Elevenlabs преследует рынок аудиокниг, Хьюм строит ИИ, с которым вы можете поболтать - голосом, который вы хотите услышать, а не то, что Сири делала для нас в последнее десятилетие. В настоящее время Voicemod предлагает правила голоса в реальном времени, по-видимому, популярен среди геймеров.
Что вы можете сделать с такими голосовыми инструментами?
Если вы рассказчик, подкастер, игровой разработчик или Brand Builder, это меняет весь ваш творческий стек. Вам не нужна студия, сессия кастинга или даже микрофон. Теперь вы можете:
- Постройте весь голос для вашей игры, каждый из которых со своим собственным тоном, эмоциональным диапазоном и причудами доставки.
- Прототип аудио драмы или сценария фильма с полной эмоциональной доставкой, прежде чем записывать одного настоящего актера.
- Проверьте десятки версий одной и той же рекламы с различными вибрациями: оптимистичный, вдумчивый, саркастический, прошептанный.
- Создайте фирменный голос для вашего стартапа, который не просто звучит ясно, но звучитКак вы хотите, чтобы пользователь чувствовал.
Для Соло -Создателя это не только производительность, но и рычаг.
Для доступности это прорыв. Вы можете сделать свой контент более инклюзивным с осведомленными о эмоциях на нескольких языках. Вы можете создать голоса для людей, которые потеряли их. Вы можете дать студентам новые способы испытать материал таким образом, чтобы это выполнялось, а не просто читать.
Вы можете построить компаньонов ИИ, которые не чувствуют себя странными. Вы можете генерировать синтетическую терапию, которые реагируют не только с точностью, но и с теплом. Вы можете написать детскую книгу и прочитать ее вслух в голосе доброй бабушки. Или космический капитан.
Или пират, которыйдействительно нужен вздремнутьПолем
Упс, извините, эта новая вещь, возможно, была обо мне.
Ничего из этого не сложно. Это $ 0,80/час. Он работает в режиме реального времени. И это работает сегодня.
Почему этот момент имеет значение
Мы достигли нового порога, а не только в точности. Прыжок - это эмоция: мы переходим счто говоритсякКак это себя чувствует.
Каждый интерфейс, который включает в себя язык - от медиа до сообщений до виртуальных помощников - вот -вот будет восстановлен с этим слоем.
Потому что, если вы можете направлять эмоции, вы можете направлять поведение. Влияние, убеждение, сочувствие, намерение - они больше не являются мягкими навыками. Это программируемые поверхности.
Это сдвиг в рассказывании историй. Сдвиг в маркетинге. Сдвиг в доверие.
Больше, чем техническое достижение OpenAudio, это указатель.
Эмоции - это следующая граница пользовательского опыта.
И голос - это то, где эта битва уже выигрывается.
Оригинал