Sora от OpenAI генерирует фотореалистичные видео
17 февраля 2024 г.OpenAI выпустила 15 февраля впечатляющую новую модель преобразования текста в видео под названием Sora, которая может создавать фотореалистичные или мультяшные движущиеся изображения из текстовых подсказок на естественном языке. Сора пока недоступен для публики; вместо этого OpenAI предоставила Sora «красным командам» — исследователям безопасности, которые имитируют методы, используемые субъектами угроз, — для оценки возможного вреда или рисков. OpenAI также предложила Sora избранным дизайнерам, художникам по аудио и видео, чтобы получить отзывы о том, как лучше всего оптимизировать Sora для творческой работы.
Акцент OpenAI на безопасности вокруг Sora в настоящее время является стандартом для генеративного ИИ, но он также показывает важность мер предосторожности, когда речь идет об ИИ, который может быть использован для создания убедительных фальшивых изображений, которые могут, например, нанести ущерб репутации организации.
Что такое Сора?
Сора — это генеративная модель распространения ИИ. Сора может создавать нескольких персонажей, сложные фоны и реалистичные движения в видеороликах продолжительностью до минуты. Он может создавать несколько кадров в одном видео, сохраняя единообразие персонажей и визуального стиля, что позволяет Соре быть эффективным инструментом рассказывания историй.
В будущем Sora можно будет использовать для создания видеороликов, сопровождающих контент, для продвижения контента или продуктов в социальных сетях или для иллюстрации моментов в презентациях для бизнеса. Хотя Sora не должна заменять творческие умы профессиональных видеомейкеров, ее можно использовать для более быстрого и легкого создания некоторого контента. Хотя информации о ценах пока нет, вполне возможно, что OpenAI в конечном итоге получит возможность включить Sora в свою подписку ChatGPT Enterprise.
«СМИ и развлечения станут вертикальной индустрией, которая может первыми внедрить подобные модели», — сказал TechRepublic по электронной почте аналитик Gartner и заслуженный вице-президент Арун Чандрасекаран Чандрасекаран. «Бизнес-функции, такие как маркетинг и дизайн, в технологических компаниях и предприятиях также могут стать первопроходцами».
Как мне получить доступ к Соре?
Если вы еще не получили доступ от OpenAI в рамках бета-тестирования красной команды или творческой работы, доступ к Sora сейчас невозможен. OpenAI выпустила Sora для избранных художников, дизайнеров и кинематографистов, чтобы они могли научиться оптимизировать Sora специально для творческих целей. Кроме того, OpenAI предоставил доступ исследователям из красной команды, специализирующимся на дезинформации, разжигающем ненависть контенте и предвзятости. Аналитик Gartner и заслуженный вице-президент Арун Чандрасекаран заявил, что первоначальный выпуск Sora OpenAI является «хорошим подходом и соответствует практике OpenAI по безопасному выпуску моделей».
«Конечно, одного этого будет недостаточно, и им необходимо внедрить методы, позволяющие отсеивать злоумышленников, получающих доступ к этим моделям или их гнусное использование», — сказал Чандрасекаран.
Как работает Сора?
Сора — это диффузионная модель, то есть она постепенно превращает бессмысленное изображение в понятное на основе подсказки и использует архитектуру-трансформер. Исследование, проведенное OpenAI для создания своих моделей DALL-E и GPT — в частности, методика повторного захвата данных из DALL-E — стало ступенькой на пути к творению Соры.
SEE: Инженеры искусственного интеллекта востребованы в Великобритании (TechRepublic)
Видео Соры не всегда выглядят полностью реалистично
Соре по-прежнему трудно различать левое и правое или следовать сложным описаниям событий, происходящих во времени, например подсказкам о конкретном движении камеры. По словам OpenAI, видео, созданные с помощью Sora, скорее всего, будут обнаружены по причинно-следственным ошибкам, например, когда человек откусывает кусочек печенья, но не оставляет следа от укуса.
Например, взаимодействие между персонажами может проявляться размытостью (особенно вокруг конечностей) или неопределенностью в количественном отношении (например, сколько волков в видео ниже в любой момент времени?).
Каковы меры безопасности OpenAI в отношении Соры?
При правильных подсказках и настройке видеоролики, которые снимает Сора, легко можно принять за видеоролики с живыми актерами. OpenAI осознает возможные проблемы клеветы или дезинформации, возникающие в результате этой технологии. OpenAI планирует применить к Sora те же фильтры контента, что и к DALL-E 3, которые предотвращают «крайнее насилие, сексуальный контент, изображения ненависти, сходство со знаменитостями или чужую интеллектуальную собственность», согласно OpenAI.
Если Sora станет общедоступной, OpenAI планирует пометить контент, созданный с помощью Sora, водяными знаками с метаданными C2PA; метаданные можно просмотреть, выбрав изображение и выбрав пункты меню «Информация о файле» или «Свойства». Люди, создающие изображения, сгенерированные искусственным интеллектом, по-прежнему могут удалять метаданные намеренно или могут сделать это случайно. В OpenAI в настоящее время нет ничего, что могло бы помешать пользователям генератора изображений DALL-E 3 удалять метаданные.
«Уже [сложно] и становится все более невозможно обнаружить контент, созданный людьми с помощью ИИ», — сказал Чандрасекаран. «Венчурные капиталисты инвестируют в стартапы, создающие инструменты обнаружения дипфейков, и они (инструменты обнаружения дипфейков) могут быть частью брони предприятия. Однако в будущем возникнет необходимость в государственно-частном партнерстве для выявления, часто на этапе создания, машинно-генерируемого контента».
Какие конкуренты у Соры?
Фотореалистичные видеоролики Соры довольно своеобразны, но есть и похожие сервисы. Runway обеспечивает готовое для предприятия создание искусственного интеллекта для преобразования текста в видео. Fliki может создавать ограниченное количество видеороликов с синхронизацией голоса для повествования в социальных сетях. Генеративный ИИ теперь может надежно добавлять контент или редактировать видео, снятые традиционным способом.
8 февраля исследователи Apple опубликовали статью о Keyframer, предложенной компанией большой языковой модели, которая может создавать стилизованные анимированные изображения.
TechRepublic обратилась к OpenAI за дополнительной информацией о Соре.
Оригинал