Система генерации видео AI VASA-1 от Microsoft может создавать реалистичные аватары, говорящие о многом, из одной фотографии.

Система генерации видео AI VASA-1 от Microsoft может создавать реалистичные аватары, говорящие о многом, из одной фотографии.

22 апреля 2024 г.

Видео, созданное искусственным интеллектом, уже стало реальностью, и теперь к битве присоединился еще один игрок: Microsoft . Судя по всему, технологический гигант разработал генеративный искусственный интеллект система, которая может создавать реалистичных говорящих аватаров из одной картинки и аудиоклипа. Инструмент называется VASA-1, и он выходит за рамки имитации движений рта; он может передавать реалистичные эмоции и создавать естественные движения.

Система предлагает пользователю возможность изменять движения глаз субъекта, расстояние, на котором объект воспринимается, и выражаемые эмоции. VASA-1 — первая модель из серии Инструменты искусственного интеллекта и MSPowerUser сообщает, что он может вызывать в воображении определенные выражения лица, в высокой степени синхронизировать движения губ и производить движения головы, подобные человеческим.

Он может предлагать широкий спектр эмоций на выбор и генерировать тонкости лица, что, похоже, может привести к пугающе убедительному результату.

Как работает VASA-1 и на что он способен

Видимо, обращаю внимание на то, как люди 3D-аниматоры и моделисты Работая, VASA-1 использует процесс, который он называет «распутыванием», позволяя системе контролировать и редактировать выражения лица, трехмерное положение головы и черты лица независимо друг от друга, и это то, что обеспечивает реализм VASA-1. .

Как вы, наверное, уже догадались, это имеет сейсмический потенциал, предлагая возможность полностью изменить наш опыт использования цифровых приложений и интерфейсов. По словам MSPowerUser, VASA-1 может создавать видеоролики, отличные от тех, на которых он обучался. Судя по всему, система не была обучена работе с художественными фотографиями, поющими голосами или неанглийской речью, но если вы запросите видео, в котором присутствует что-то из этого, она вас удовлетворит.

Исследователи Microsoft, стоящие за VASA-1, хвалят ее эффективность в реальном времени, заявляя, что система может создавать видео довольно высокого разрешения (512×512 пикселей) с высокой частотой кадров. Частота кадров, или кадров в секунду (fps), — это частота, с которой серия изображений (называемых кадрами) может захватываться или отображаться последовательно в пределах медиафайла. Исследователи утверждают, что VASA-1 может генерировать видео со скоростью 45 кадров в секунду в автономном режиме и 40 кадров в секунду в онлайн-режиме.

Вы можете проверить состояние VASA-1 и узнать больше о нем на странице Специальная веб-страница Microsoft для этого проекта. Он содержит несколько демонстраций и ссылки для скачивания информации о нем, заканчиваясь разделом под заголовком «Риски и соображения ответственного ИИ».

Работает как волшебство – но является ли это чудодейственным заклинанием или рецептом катастрофа?

В этом заключительном разделе Microsoft признает, что подобный инструмент имеет множество возможностей для неправильного использования, но исследователи пытаются подчеркнуть потенциальные положительные стороны VASA-1. Они не ошибаются; Подобная технология может означать новый уровень образования, доступный большему количеству студентов, чем когда-либо прежде, лучшую помощь людям, испытывающим трудности в общении, возможность обеспечить дружеское общение и улучшенную цифровую терапевтическую поддержку.

Учитывая все вышесказанное, было бы глупо игнорировать потенциальный вред и правонарушения, связанные с чем-то подобным. Microsoft заявляет, что в настоящее время у нее нет планов сделать VASA-1 доступной в любой форме для общественности до тех пор, пока она не будет уверена, что «технология будет использоваться ответственно и в соответствии с надлежащими правилами». Если Microsoft будет придерживаться этого идеала, думаю, ждать придется долго.

В целом, я думаю, становится трудно отрицать, что генеративные видеоинструменты на основе искусственного интеллекта станут более распространенными, и начался обратный отсчет до того момента, когда они насытят нашу жизнь. Google работает над аналогичной системой искусственного интеллекта под названием VLOGGER, а также недавно опубликовал статью, в которой подробно описывается, как VLOGGER может создавать реалистичные видеоролики людей, двигающихся, говорящих и жестикулирующих, используя одну фотографию.

OpenAI также недавно попала в заголовки газет, представив свой собственный инструмент для создания видео с использованием искусственного интеллекта, Sora, который может генерировать видео из текстовых описаний. OpenAI объяснила, как Сора работает на специальной странице. и провели демонстрации, которые впечатлили многих людей и обеспокоили еще больше.

Я с подозрением отношусь к тому, что эти инновации позволят нам сделать, и рад, что, насколько нам известно, все три новых инструмента держатся в строжайшем секрете. Я думаю, что на самом деле лучшими барьерами против злоупотребления такими технологиями, которые у нас есть, являются строгие правила, но я сомневаюсь, что все правительства предпримут эти шаги вовремя.

ВАМ ТАКЖЕ МОЖЕТ ПОНРАВИТЬСЯ...


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE