У Microsoft есть новый инструмент искусственного интеллекта для преобразования текста в речь, который удивляет и раздражает нас

У Microsoft есть новый инструмент искусственного интеллекта для преобразования текста в речь, который удивляет и раздражает нас

10 января 2023 г.

Похоже, что 2023 год — это год искусственного интеллекта (ИИ), и Microsoft — последняя компания, стремящаяся принять участие в этом.

Исследователи компании опубликовали документ с подробным описанием новая технология, которая совершит огромный скачок в инструментах преобразования текста в речь.< /p>

Краткое изложение документа объясняет, как технология, получившая название VALL-E, «появляет возможности контекстного обучения и может использоваться для синтеза высококачественной персонализированной речи всего за 3-секундную зарегистрированную запись». невидимого говорящего в качестве звуковой подсказки».

Майкрософт ВАЛЛ-Е

В простых формах это означает, что инструмент теперь может анализировать то, что заставляет человека звучать так, как он это делает, включая подсказки фонемы и акустического кода, благодаря EnCodec Meta, и генерировать звук, который более точно имитирует то, что он говорит. может звучать как за пределами трех секунд записи образца голоса. Ранние этапы VALL-E стали возможными благодаря анализу более 60 000 часов голосовых записей на английском языке.

Пост на GitHub приводит ряд примеров того, как можно использовать эту технологию, включая сохранение эмоциональных сигналов и даже эффектов окружающей среды, таких как отсоединенный звук, типичный для телефонный разговор.

Несмотря на краткость, упоминаются потенциальные последствия таких инструментов преобразования текста в речь, что становится все более важным в то время, когда ИИ выявил этические проблемы, о которых мы раньше только мечтали (или видели в кошмарах). .

На самом деле, любое количество проблем может возникнуть из-за ложных записей, дающих разрешение на что-то (например, количество банков, которые используют аутентификацию с помощью распознавания голоса по телефону), или намного хуже.

В заключении говорится, что VALL-E «может нести в себе потенциальные риски при неправильном использовании модели, например подмена голосовой идентификации или выдача себя за определенного говорящего. Бендж Эдвардс из Ars Technica также отметила, что Microsoft еще не предоставила код проекта для опробования кому-либо еще, что указывает на то, что потенциальные риски все еще учитываются.

PREVIOUS ARTICLE
NEXT ARTICLE