Текст на Voice? Нет, это что-то большее: текст к эмоции.

Текст на Voice? Нет, это что-то большее: текст к эмоции.

6 июня 2025 г.

Вопрос больше нет,«Это звучит человеческое?»


Его,«Как ты хочешь, чтобы это было похоже?»


И этот сдвиг может быть самой важной вещью, происходящей в ИИ, ориентированном на потребителей.


Шестьдесят дней назад я написал о том, какЯ неосознанно слушал музыку, сгенерированную AIИз -за новой модели, которая породила музыку таким образом, это было тонким, почти окружающим.


То, что я слушал на этой неделе в речевом пространстве ИИ, совсем не тонкое.


Недавние выпуски сделали такой скачок вперед, что у общественности теперь есть доступ к голосовым моделям, которые не простосказатьСлова, это выполняет их. По сигналу. В реальном времени. С эмоциональной точностью, которая ощущается ... откровенно, как что -то прямо изГораПолем


Мы перестали пытаться сделать машины звучать человеком - это сделано - мы сейчас обучаем ихдействоватьПолем


Голос, который берет направление


Мы вступили в фазу, где ИИ на самом деле можетвыполнятьПолем


Это не просто выходит на выходную речь, это обеспечивает намерение. Настроение. Эмоция


Новая модель OpenAudio, доступная в Fish Audio, позволяет настроить сценарий, который включает эмоциональные или тональные маркеры, такие как (саркастически), (с энтузиазмом) или (взволнован). Это также может включать в себя специальные маркеры, такие как (смех), (рыдание) или (задыхаясь). Менее чем за минуту я дал ему свой собственный голос и дал результаты, которые были бы достаточно хороши, чтобы кого -то обмануть. Если бы я потратил немного больше времени, я уверен, что смогу получить это в страшное место. Я не был удивлен, увидев OpenAudio на вершине рейтинга TTS Arena Hugging Face для выразительности:



Но реальная история о сдвиге в творческом контроле. Вы можете шептать, рыдать, кричать, подчеркнуть, отступать.


Это разыгрывается в ландшафте голоса искусственного интеллекта, но, что интересно, когда каждый конкурент, по -видимому, набрал в своем собственном сегменте: Elevenlabs преследует рынок аудиокниг, Хьюм строит ИИ, с которым вы можете поболтать - голосом, который вы хотите услышать, а не то, что Сири делала для нас в последнее десятилетие. В настоящее время Voicemod предлагает правила голоса в реальном времени, по-видимому, популярен среди геймеров.


Что вы можете сделать с такими голосовыми инструментами?


Если вы рассказчик, подкастер, игровой разработчик или Brand Builder, это меняет весь ваш творческий стек. Вам не нужна студия, сессия кастинга или даже микрофон. Теперь вы можете:


  • Постройте весь голос для вашей игры, каждый из которых со своим собственным тоном, эмоциональным диапазоном и причудами доставки.
  • Прототип аудио драмы или сценария фильма с полной эмоциональной доставкой, прежде чем записывать одного настоящего актера.
  • Проверьте десятки версий одной и той же рекламы с различными вибрациями: оптимистичный, вдумчивый, саркастический, прошептанный.
  • Создайте фирменный голос для вашего стартапа, который не просто звучит ясно, но звучитКак вы хотите, чтобы пользователь чувствовал.


Для Соло -Создателя это не только производительность, но и рычаг.


Для доступности это прорыв. Вы можете сделать свой контент более инклюзивным с осведомленными о эмоциях на нескольких языках. Вы можете создать голоса для людей, которые потеряли их. Вы можете дать студентам новые способы испытать материал таким образом, чтобы это выполнялось, а не просто читать.


Вы можете построить компаньонов ИИ, которые не чувствуют себя странными. Вы можете генерировать синтетическую терапию, которые реагируют не только с точностью, но и с теплом. Вы можете написать детскую книгу и прочитать ее вслух в голосе доброй бабушки. Или космический капитан.


Или пират, которыйдействительно нужен вздремнутьПолем


Упс, извините, эта новая вещь, возможно, была обо мне.


Ничего из этого не сложно. Это $ 0,80/час. Он работает в режиме реального времени. И это работает сегодня.


Почему этот момент имеет значение


Мы достигли нового порога, а не только в точности. Прыжок - это эмоция: мы переходим счто говоритсякКак это себя чувствует.

Каждый интерфейс, который включает в себя язык - от медиа до сообщений до виртуальных помощников - вот -вот будет восстановлен с этим слоем.


Потому что, если вы можете направлять эмоции, вы можете направлять поведение. Влияние, убеждение, сочувствие, намерение - они больше не являются мягкими навыками. Это программируемые поверхности.


Это сдвиг в рассказывании историй. Сдвиг в маркетинге. Сдвиг в доверие.


Больше, чем техническое достижение OpenAudio, это указатель.


Эмоции - это следующая граница пользовательского опыта.


И голос - это то, где эта битва уже выигрывается.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE