вычисления techradar.com Новости

Технология преобразования текста в видео от Nvidia может вывести вашу GIF-игру на новый уровень

21 апреля 2023 г.

Теперь, когда ChatGPT и Midjourney стали популярными, следующей крупной гонкой ИИ станут генераторы преобразования текста в видео. Nvidia только что продемонстрировала несколько впечатляющих демонстраций технологии, которая вскоре может вывести ваши GIF-файлы на новый уровень.

новый исследовательский документ и микросайт от лаборатории ИИ Nvidia в Торонто, под названием «Синтез видео высокого разрешения с моделями скрытой диффузии», дает нам представление о невероятных инструментах для создания видео, которые вот-вот присоединятся к постоянно растущему списку лучшие генераторы искусственного интеллекта.

Модели скрытой диффузии (или LDM) — это тип ИИ, который может генерировать видео, не требуя огромных вычислительных мощностей. Nvidia говорит, что ее технология делает это, опираясь на работу генераторов преобразования текста в изображение, в данном случае Stable Diffusion, и добавляя «временное измерение к модели диффузии в скрытом пространстве».

Gif штурмовика, пылесосящего на пляже — (Изображение предоставлено Nvidia)

Другими словами, его генеративный ИИ может заставить неподвижные изображения двигаться реалистично и масштабировать их до использования методов сверхвысокого разрешения. Это означает, что он может создавать короткие видеоролики продолжительностью 4,7 секунды с разрешением 1280x2048 или более длинные видеоролики с более низким разрешением 512x1024 для видео вождения.

Когда мы увидели ранние демоверсии (например, те, что выше и ниже), мы подумали, насколько это может улучшить нашу игру GIF. Хорошо, есть более важные последствия, такие как демократизация создания видео и перспектива автоматической адаптации фильма, но на данном этапе преобразование текста в GIF кажется наиболее захватывающим вариантом использования.

Простые подсказки, такие как «штурмовик пылесосит на пляже». и «плюшевый мишка играет на электрогитаре, высокое разрешение, 4K». дают довольно полезные результаты, даже если есть естественные артефакты и морфинг с некоторыми творениями.

Прямо сейчас это делает технологию преобразования текста в видео, такую как новые демонстрации Nvidia, наиболее подходящей для миниатюр и GIF-файлов. Но, учитывая быстрые улучшения, наблюдаемые в генерации искусственного интеллекта Nvidia для более длинных сцен , нам, вероятно, не придется ждать более длинных клипов преобразования текста в видео в стоковых библиотеках и за их пределами. <час>

Анализ: следующий рубеж для генеративного ИИ

Солнце выглядывает из окна лофта в Нью-Йорке — (Изображение предоставлено Runway)

Nvidia — не первая компания, которая хвастается ИИ-генератором преобразования текста в видео. Недавно мы увидели дебют Google Phenaki, раскрывающий его потенциал для 20-секундных клипов на основе более длинных подсказок. Его демоверсии также показывают, хотя и более динамичный клип, который длится более двух минут.

Стартап Runway, который помог создать генератор преобразования текста в изображение Stable Diffusion, также представил свою видеомодель AI Gen-2< /a> в прошлом месяце. Наряду с реагированием на такие подсказки, как «солнце после полудня выглядывает из окна лофта в Нью-Йорке»; (результат которого приведен выше), он позволяет вам предоставить неподвижное изображение для создания сгенерированного видео, а также позволяет запрашивать стили для применения к его видео.

Последнее также было темой недавних демонстраций Adobe Firefly, которые показали насколько проще ИИ сделает редактирование видео. В таких программах, как Adobe Premiere Rush, вы скоро сможете ввести время суток или время года, которое хотите видеть в своем видео, а искусственный интеллект Adobe сделает все остальное.

Недавние демонстрации от Nvidia, Google и Runway показывают, что полная генерация текста в видео находится в несколько более туманном состоянии, часто создавая странные, мечтательные или искаженные результаты. Но на данный момент это хорошо подойдет для нашей игры с GIF, а быстрые улучшения, которые сделают технологию пригодной для более длинных видео, наверняка не за горами.

Оригинал

Технология преобразования текста в видео от Nvidia может вывести вашу GIF-игру на новый уровень

Анализ: следующий рубеж для генеративного ИИ

Recent Post

Приложение Botpad's Windows 11 получает новые трюки на форматирование, которые уже оказываются спорными

Основная доклада Apple WWDC 2025 может быть «разочарованием», но есть 4 разведывательных проекта Apple, над которым работает, что вы должны быть в восторге от

Время обновления? WhatsApp только что опустил поддержку этих старых iPhone и Android -телефонов

Macos Tahoe, по слухам, следовать за Sequoia - вот 3 вещи, чтобы ожидать от следующей настольной ОС Apple

Google планирует заставить свой ИИ написать ваши электронные письма для вас

Categories