Технология преобразования текста в видео от Nvidia может вывести вашу GIF-игру на новый уровень

Технология преобразования текста в видео от Nvidia может вывести вашу GIF-игру на новый уровень

21 апреля 2023 г.

Теперь, когда ChatGPT и Midjourney стали популярными, следующей крупной гонкой ИИ станут генераторы преобразования текста в видео. Nvidia только что продемонстрировала несколько впечатляющих демонстраций технологии, которая вскоре может вывести ваши GIF-файлы на новый уровень.

новый исследовательский документ и микросайт от лаборатории ИИ Nvidia в Торонто, под названием «Синтез видео высокого разрешения с моделями скрытой диффузии», дает нам представление о невероятных инструментах для создания видео, которые вот-вот присоединятся к постоянно растущему списку лучшие генераторы искусственного интеллекта.

Модели скрытой диффузии (или LDM) — это тип ИИ, который может генерировать видео, не требуя огромных вычислительных мощностей. Nvidia говорит, что ее технология делает это, опираясь на работу генераторов преобразования текста в изображение, в данном случае Stable Diffusion, и добавляя «временное измерение к модели диффузии в скрытом пространстве».

Gif штурмовика, пылесосящего на пляже

(Изображение предоставлено Nvidia)

Другими словами, его генеративный ИИ может заставить неподвижные изображения двигаться реалистично и масштабировать их до использования методов сверхвысокого разрешения. Это означает, что он может создавать короткие видеоролики продолжительностью 4,7 секунды с разрешением 1280x2048 или более длинные видеоролики с более низким разрешением 512x1024 для видео вождения.

Когда мы увидели ранние демоверсии (например, те, что выше и ниже), мы подумали, насколько это может улучшить нашу игру GIF. Хорошо, есть более важные последствия, такие как демократизация создания видео и перспектива автоматической адаптации фильма, но на данном этапе преобразование текста в GIF кажется наиболее захватывающим вариантом использования.

Плюшевый мишка играет на электрогитаре

(Изображение предоставлено Nvidia)

Простые подсказки, такие как «штурмовик пылесосит на пляже». и «плюшевый мишка играет на электрогитаре, высокое разрешение, 4K». дают довольно полезные результаты, даже если есть естественные артефакты и морфинг с некоторыми творениями.

Прямо сейчас это делает технологию преобразования текста в видео, такую ​​как новые демонстрации Nvidia, наиболее подходящей для миниатюр и GIF-файлов. Но, учитывая быстрые улучшения, наблюдаемые в генерации искусственного интеллекта Nvidia для более длинных сцен , нам, вероятно, не придется ждать более длинных клипов преобразования текста в видео в стоковых библиотеках и за их пределами. <час>

Анализ: следующий рубеж для генеративного ИИ 

Солнце выглядывает из окна лофта в Нью-Йорке

(Изображение предоставлено Runway)

Nvidia — не первая компания, которая хвастается ИИ-генератором преобразования текста в видео. Недавно мы увидели дебют Google Phenaki, раскрывающий его потенциал для 20-секундных клипов на основе более длинных подсказок. Его демоверсии также показывают, хотя и более динамичный клип, который длится более двух минут.

Стартап Runway, который помог создать генератор преобразования текста в изображение Stable Diffusion, также представил свою видеомодель AI Gen-2< /a> в прошлом месяце. Наряду с реагированием на такие подсказки, как «солнце после полудня выглядывает из окна лофта в Нью-Йорке»; (результат которого приведен выше), он позволяет вам предоставить неподвижное изображение для создания сгенерированного видео, а также позволяет запрашивать стили для применения к его видео.

Последнее также было темой недавних демонстраций Adobe Firefly, которые показали насколько проще ИИ сделает редактирование видео. В таких программах, как Adobe Premiere Rush, вы скоро сможете ввести время суток или время года, которое хотите видеть в своем видео, а искусственный интеллект Adobe сделает все остальное.

Недавние демонстрации от Nvidia, Google и Runway показывают, что полная генерация текста в видео находится в несколько более туманном состоянии, часто создавая странные, мечтательные или искаженные результаты. Но на данный момент это хорошо подойдет для нашей игры с GIF, а быстрые улучшения, которые сделают технологию пригодной для более длинных видео, наверняка не за горами.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE