Meta вступает в борьбу за киноискусство с помощью видеогенератора и звука
8 октября 2024 г.Meta представила базовую модель, способную создавать реалистичные видео, конкурируя с Sora от OpenAI и Veo от Google в зарождающемся конкурсе генеративного видео ИИ. Две новые модели были представлены 4 октября:
- Параметр 30B Movie Gen Video.
Параметр 13B Movie Gen Audio.
Оба основаны на модели Llama 3 от Meta. Технологический гигант рассчитывает внедрить Movie Gen в Instagram в 2025 году.
Что представляет собой семейство моделей Movie Gen?
Модели Movie Gen — это ИИ, преобразующий текст в видео или текст в аудио. Meta утверждает, что Movie Gen может создавать видео длиной до 16 секунд. Для сравнения, Sora от OpenAI, в настоящее время недоступная для публики, может генерировать одноминутные видео с несколькими сценами. Veo, доступный для избранных создателей, может создавать видео длиной около минуты.
Movie Gen управляется с помощью естественного языка. Это означает, что пользователи могут описывать сцену, которую они хотят увидеть, включая отдельные элементы и общий тон. Они также могут изменять элементы видео на основе текстовых подсказок на естественном языке, например, добавлять или удалять части из сцены.
Аспект персонализации был реализован с помощью «процедур после обучения», сказал Мета. Эти процедуры фокусировали ИИ таким образом, что он «сохранял личность человека, следуя текстовой подсказке». Это позволяет пользователям помещать себя — или кого-то другого — в индивидуально созданную сцену.
Продукт Meta, похоже, нацелен в первую очередь на создателей контента на начальном этапе его представления. Цель состоит в том, чтобы «помочь людям выразить себя новыми способами и предоставить возможности тем, у кого их в противном случае могло бы не быть», — заявила Meta в своем блоге.
SEE: Иногда цифровая трансформация может показаться случайным шагом в неизвестность, но есть способы помочь проектам добиться успеха.
Свет, действие и звук
Movie Gen Audio может создавать музыку или звуковые эффекты для видео «длительностью до нескольких минут», согласно исследовательской работе Меты. Музыка генерируется на частоте 48 кГц и может либо соответствовать изображениям на экране, либо служить саундтреком.
Meta указывает на Llama 3 для решения проблем безопасности и deepfake
Для предприятий быстрое создание видеороликов, созданных с помощью ИИ, может значительно сократить время, необходимое для создания как внутреннего, так и внешнего контента. С другой стороны, использование контента, созданного с помощью ИИ, особенно без указания источника, может создать путаницу среди аудитории и снизить доверие, о чем свидетельствует недавний отчет журнала Journal of Hospitality Marketing and Management.
Возможно, в попытке решить проблемы доверия Meta добавила водяной знак к изображениям Video Gen. Прозрачная «искрящаяся» графика, часто используемая для обозначения того, что ИИ находится в левом нижнем углу видео.
Безопасность и использование генеративного ИИ для создания тревожного, вредоносного или вводящего в заблуждение контента вызывают беспокойство — особенно в случаях делового использования, когда репутация компании может быть поставлена на карту. В объявлении Movie Gen Meta сослалась на сентябрьский отчет о защите своих моделей ИИ, включая семейство Llama 3. В отчете подробно описывается, как модель содержит средства защиты от ненадлежащего контента, и что изображения будут включать как видимые, так и невидимые водяные знаки.
Оригинал