
Технология преобразования текста в видео от Nvidia может вывести вашу GIF-игру на новый уровень
21 апреля 2023 г.Теперь, когда ChatGPT и Midjourney стали популярными, следующей крупной гонкой ИИ станут генераторы преобразования текста в видео. Nvidia только что продемонстрировала несколько впечатляющих демонстраций технологии, которая вскоре может вывести ваши GIF-файлы на новый уровень.
новый исследовательский документ и микросайт от лаборатории ИИ Nvidia в Торонто, под названием «Синтез видео высокого разрешения с моделями скрытой диффузии», дает нам представление о невероятных инструментах для создания видео, которые вот-вот присоединятся к постоянно растущему списку лучшие генераторы искусственного интеллекта.
Модели скрытой диффузии (или LDM) — это тип ИИ, который может генерировать видео, не требуя огромных вычислительных мощностей. Nvidia говорит, что ее технология делает это, опираясь на работу генераторов преобразования текста в изображение, в данном случае Stable Diffusion, и добавляя «временное измерение к модели диффузии в скрытом пространстве».
Другими словами, его генеративный ИИ может заставить неподвижные изображения двигаться реалистично и масштабировать их до использования методов сверхвысокого разрешения. Это означает, что он может создавать короткие видеоролики продолжительностью 4,7 секунды с разрешением 1280x2048 или более длинные видеоролики с более низким разрешением 512x1024 для видео вождения.
Когда мы увидели ранние демоверсии (например, те, что выше и ниже), мы подумали, насколько это может улучшить нашу игру GIF. Хорошо, есть более важные последствия, такие как демократизация создания видео и перспектива автоматической адаптации фильма, но на данном этапе преобразование текста в GIF кажется наиболее захватывающим вариантом использования.
Простые подсказки, такие как «штурмовик пылесосит на пляже». и «плюшевый мишка играет на электрогитаре, высокое разрешение, 4K». дают довольно полезные результаты, даже если есть естественные артефакты и морфинг с некоторыми творениями.
Прямо сейчас это делает технологию преобразования текста в видео, такую как новые демонстрации Nvidia, наиболее подходящей для миниатюр и GIF-файлов. Но, учитывая быстрые улучшения, наблюдаемые в генерации искусственного интеллекта Nvidia для более длинных сцен , нам, вероятно, не придется ждать более длинных клипов преобразования текста в видео в стоковых библиотеках и за их пределами. <час>
Анализ: следующий рубеж для генеративного ИИ
Nvidia — не первая компания, которая хвастается ИИ-генератором преобразования текста в видео. Недавно мы увидели дебют Google Phenaki, раскрывающий его потенциал для 20-секундных клипов на основе более длинных подсказок. Его демоверсии также показывают, хотя и более динамичный клип, который длится более двух минут.
Стартап Runway, который помог создать генератор преобразования текста в изображение Stable Diffusion, также представил свою видеомодель AI Gen-2< /a> в прошлом месяце. Наряду с реагированием на такие подсказки, как «солнце после полудня выглядывает из окна лофта в Нью-Йорке»; (результат которого приведен выше), он позволяет вам предоставить неподвижное изображение для создания сгенерированного видео, а также позволяет запрашивать стили для применения к его видео.
Последнее также было темой недавних демонстраций Adobe Firefly, которые показали насколько проще ИИ сделает редактирование видео. В таких программах, как Adobe Premiere Rush, вы скоро сможете ввести время суток или время года, которое хотите видеть в своем видео, а искусственный интеллект Adobe сделает все остальное.
Недавние демонстрации от Nvidia, Google и Runway показывают, что полная генерация текста в видео находится в несколько более туманном состоянии, часто создавая странные, мечтательные или искаженные результаты. Но на данный момент это хорошо подойдет для нашей игры с GIF, а быстрые улучшения, которые сделают технологию пригодной для более длинных видео, наверняка не за горами.
Оригинал