Фильмы, созданные искусственным интеллектом, появятся раньше, чем вы думаете – и новый инструмент Google DeepMind доказывает это

Фильмы, созданные искусственным интеллектом, появятся раньше, чем вы думаете – и новый инструмент Google DeepMind доказывает это

19 июня 2024 г.

Генераторы видео с искусственным интеллектом, такие как Sora OpenAI, Машина мечты искусственного интеллекта Luma и ВПП Gen-3 Alpha в последнее время крадут заголовки газет, но новый инструмент Google DeepMind может исправить единственную слабость, которую они все разделяют — отсутствие сопровождающего аудио.

Новая публикация Google DeepMind представила новый инструмент преобразования видео в аудио (или «V2A»), который использует комбинацию пикселей и текстовых подсказок для автоматического создания саундтреков и звуковых ландшафтов для видео, созданных искусственным интеллектом. Короче говоря, это еще один большой шаг к созданию полностью автоматизированных сцен фильмов.

Как вы можете видеть на видеороликах ниже, эту технологию V2A можно сочетать с генераторами видео AI (включая Google's Veo) для создания атмосферной партитуры, своевременных звуковых эффектов или даже диалогов, которые, по словам Google DeepMind, "соответствуют персонажам и тону видео".

Создатели также не ограничиваются одним вариантом звука: новый инструмент DeepMind V2A, очевидно, может генерировать «неограниченное количество саундтреков для любого видеовхода» для любой сцены, а это означает, что вы можете подтолкнуть его к желаемому результату с помощью нескольких простых текстовые подсказки.

Google заявляет, что его инструмент выделяется среди конкурирующих технологий благодаря своей способности генерировать звук исключительно на основе пикселей — предоставление ему направляющей текстовой подсказки, по-видимому, совершенно необязательно. Но DeepMind также прекрасно осознает серьезный потенциал злоупотреблений и дипфейков, поэтому этот инструмент V2A на данный момент рассматривается как исследовательский проект.

DeepMind заявляет, что «прежде чем мы рассмотрим возможность открытия доступа к ней широкой публике, наша технология V2A пройдет тщательную оценку и тестирование безопасности». Это, безусловно, должно быть строгим, потому что десять коротких видео-примеров показывают, что у этой технологии есть взрывной потенциал, как хороший, так и плохой.

Потенциал любительского кино и анимации огромен, о чем свидетельствует фильм «Ужасы». клип ниже и один с мультяшным детёнышем динозавра. Сцена в стиле Бегущего по лезвию (внизу), показывающая машины, скользящие по городу, под звуковое сопровождение электронной музыки, также показывает, как это может радикально сократить бюджеты научно-фантастических фильмов.

Обеспокоенные создатели, по крайней мере, найдут некоторое утешение в очевидных ограничениях диалога, показанных в «семействе Claymation». видео. Но если прошлый год нас чему-то и научил, так это тому, что технология DeepMind V2A с этого момента только радикально улучшится.

Туда, куда мы направляемся, нам не понадобятся актеры озвучивания

Сочетание видеороликов, созданных ИИ, с саундтреками и звуковыми эффектами, созданными ИИ, меняет правила игры на многих уровнях и добавляет еще одно измерение в гонку вооружений, которая и без того была горячей.

OpenAI уже заявила, что планирует добавить звук в свой видеогенератор Sora, запуск которого запланирован на конец этого года. Но новый инструмент V2A от DeepMind показывает, что технология уже находится на продвинутой стадии и может создавать звук исключительно на основе видео, а не нуждаться в бесконечных подсказках.

Инструмент DeepMind работает с использованием модели диффузии, которая объединяет информацию, взятую из пикселей видео и текстовых подсказок пользователя, а затем выдает сжатый звук, который затем декодируется в звуковую волну. По-видимому, он был обучен на сочетании видео, аудио и аннотаций, сгенерированных ИИ.

Неясно, на каком именно контенте обучался этот инструмент V2A, но Google явно имеет потенциально огромное преимущество, владея крупнейшей в мире платформой для обмена видео – YouTube. Ни YouTube, ни его условия использования не являются совершенно ясно, как видео можно использовать для обучения искусственного интеллекта, но генеральный директор YouTube Нил Мохан недавно рассказал Bloomberg, что у некоторых авторов есть контракты, позволяющие использовать их контент для обучения моделей ИИ.

Очевидно, что технология все еще имеет некоторые ограничения в отношении диалогов, и до создания готовой статьи, готовой для Голливуда, еще далеко. Но это уже потенциально мощный инструмент для раскадровки и кинематографистов-любителей, а острая конкуренция с такими компаниями, как OpenAI, означает, что в дальнейшем он будет только быстро улучшаться.

Вам также может понравиться...


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE