Что такое Сора OpenAI? Объяснение инструмента преобразования текста в видео и случаев, когда вы сможете его использовать

Что такое Сора OpenAI? Объяснение инструмента преобразования текста в видео и случаев, когда вы сможете его использовать

24 февраля 2024 г.

Производитель ChatGPT OpenAI представил Sora, свой механизм искусственного интеллекта для конвертации текстовые подсказки в видео. Подумайте, Dall-E (также разработанный OpenAI), но для фильмов, а не для статических изображений.

Для Sora все еще очень рано, но модель искусственного интеллекта уже вызывает много шума в социальных сетях благодаря множество клипов крутится – клипы Выглядит так, будто их собрала команда актеров и режиссеров.

Здесь мы объясним все, что вам нужно знать об OpenAI Sora: на что он способен, как работает и когда вы сможете использовать его самостоятельно. Наступила эра кинопроизводства с использованием текстовых подсказок с использованием искусственного интеллекта.

Дата и цена выпуска OpenAI Sora

В феврале 2024 года OpenAI Sora стала доступна «красным командам» — людям, чья работа заключается в проверке безопасности и стабильности продукта. OpenAI также пригласила избранное количество художников, дизайнеров и кинематографистов, чтобы протестировать возможности создания видео и оставить отзывы.

«Мы заранее делимся результатами наших исследований, чтобы начать работать с людьми, не связанными с OpenAI, и получать отзывы от них, а также дать общественности представление о том, какие возможности ИИ ожидаются на горизонте», говорит OpenAI.

Другими словами, остальные из нас пока не могут его использовать. На данный момент нет никаких указаний на то, когда Сора может стать доступной для широкой публики или сколько нам придется заплатить, чтобы получить к ней доступ.

Две собаки на горный подкастинг

(Изображение предоставлено автором : OpenAI)

Мы можем сделать некоторые приблизительные предположения о сроках, основываясь на том, что произошло с ChatGPT. До того, как этот чат-бот с искусственным интеллектом был представлен публике в ноябре 2022 года, ранее в том же году ему предшествовал предшественник под названием InstructGPT. Кроме того, DevDay OpenAI обычно проводится ежегодно в ноябре.

Таким образом, вполне возможно, что Сора может следовать аналогичной схеме и представить публике в такое же время в 2024 году. Но в настоящее время это всего лишь предположение, и мы обновим эту страницу, как только получим более четкие указания на Дата выхода Соры.

Что касается цены, то у нас также нет никаких намеков на то, сколько может стоить Сора. Для справки: ChatGPT Plus, который предлагает доступ к новейшим моделям больших языков (LLM) и Dall-E, в настоящее время стоит 20 долларов США (около 16 фунтов стерлингов / 30 австралийских долларов) в месяц.

Но Sora также требует значительно большей вычислительной мощности, чем, например, для создания одного изображения с помощью Dall-E, и этот процесс также занимает больше времени. Таким образом, до сих пор не ясно, насколько хорошо «Сора», которая по сути является исследовательской работой, может превратиться в доступный потребительский продукт.

Что такое OpenAI Sora?

Возможно, вы знакомы с генеративными моделями ИИ, такими как Google Gemini для текста и Dall-E для изображений, которые могут создавать новый контент на основе огромных объемов обучающих данных. Например, если вы попросите ChatGPT написать вам стихотворение, то, что вы получите в ответ, будет основано на множестве стихотворений, которые ИИ уже усвоил и проанализировал.

OpenAI Sora — аналогичная идея, но для видеоклипов. Вы даете ему текстовую подсказку, например «женщина, идущая по улице города ночью» или «машина, проезжающая по лесу», и получаете в ответ видео. Как и в случае с моделями изображений AI, вы можете очень точно указать, что должно быть включено в клип и стиль отснятого материала, который вы хотите увидеть.

Увидеть больше

Чтобы лучше понять, как это работает, посмотрите несколько примеров видеороликов, опубликованных пользователем Генеральный директор OpenAI Сэм Альтман. Вскоре после того, как Сора была представлена ​​миру, Альтман ответил на запросы, высказанные в социальных сетях, вернув видео на основе текста типа «волшебник в остроконечной шляпе и синем шлеме». мантия с белыми звездами, он произносит заклинание, стреляющее молниями из его руки, а в другой руке держит старый фолиант».

Как работает OpenAI Sora?

На упрощенном уровне технология, лежащая в основе Sora, — это та же технология, которая позволяет искать в Интернете изображения собаки или кошки. Покажите ИИ достаточно фотографий собаки или кошки, и он сможет обнаружить те же закономерности на новых изображениях; Точно так же, если вы обучите ИИ на миллионе видеороликов заката или водопада, он сможет генерировать свои собственные.

Конечно, за этим стоит много сложностей, и OpenAI предоставила глубокое погружение в то, как работает модель искусственного интеллекта. Он обучен на «данных интернет-масштаба», чтобы знать, как выглядят реалистичные видео, сначала анализируя клипы, чтобы узнать, на что он смотрит, а затем учится создавать свои собственные версии, когда его об этом спрашивают.

Итак, попросите Сору сделать видеоролик с аквариумом, и он вернется с приблизительным результатом, основанным на всех просмотренных видеороликах с аквариумами. Он использует так называемые визуальные патчи — более мелкие строительные блоки, которые помогают ИИ понять, что и где должно происходить и как различные элементы видео должны взаимодействовать и развиваться, кадр за кадром.

OpenAI Sora

Сора сначала становится более беспорядочной, затем становится более аккуратной < /span>(Изображение предоставлено OpenAI)

Сора основана на диффузионной модели, в которой ИИ начинается с «шумного» звука. ответ, а затем работает над «чистым» ответом; вывод через серию циклов обратной связи и прогнозных вычислений. Вы можете видеть это на кадрах выше, где видео с собакой, участвующей в шоу, превращается из бессмысленных пятен во что-то, что действительно выглядит реалистично.

И, как и другие модели генеративного ИИ, Сора использует технологию трансформатора (последняя буква T в ChatGPT означает «Трансформатор»). Преобразователи используют множество сложных методов анализа данных для обработки кучи данных – они могут понять наиболее важные и наименее важные части того, что анализируется, и выяснить окружающий контекст и взаимосвязи между этими фрагментами данных.

Чего мы до конца не знаем, так это того, откуда OpenAI взял свои обучающие данные — он не сказал, какие видеобиблиотеки использовались для работы Sora, хотя мы знаем, что у него есть партнерские отношения с базами данных контента такой как Shutterstock. В некоторых случаях вы можете увидеть сходство между данные обучения и выходные данные, которые производит Сора.

Что вы можете делать с OpenAI Sora?

На данный момент Sora способна создавать HD-видео продолжительностью до минуты без звука из текстовых подсказок. Если вы хотите увидеть примеры того, что возможно, мы собрали список 11 умопомрачительных шорт Sora, чтобы вы могли взглянуть в – включая пушистых анимационных персонажей в стиле Pixar и космонавтов в вязаных шлемах.

«Sora может создавать видеоролики продолжительностью до минуты, сохраняя при этом визуальное качество и следование указаниям пользователя», — говорит OpenAI, но это еще не все. Он также может создавать видео из неподвижных изображений, заполнять недостающие кадры в существующих видеороликах и легко объединять несколько видеороликов. Он также может создавать статические изображения или создавать бесконечные циклы из предоставленных ему клипов.

Он даже может создавать симуляции видеоигр, например, Minecraft, опять же, на основе огромного количества обучающих данных, которые учат тому, как должна выглядеть такая игра, как Minecraft. Мы уже видели демоверсию, в которой Сора может управлять игроком в среде Minecraft, а также точно отображать окружающие детали.

OpenAI на данный момент признает некоторые ограничения Sora. Физика не всегда имеет смысл: люди исчезают, трансформируются или сливаются с другими объектами. Сора не составляет карту сцены с отдельными актерами и реквизитом, он производит невероятное количество вычислений о том, куда должны переходить пиксели от кадра к кадру.

В видеороликах Соры люди могут двигаться способами, нарушающими законы физики, или детали (например, откусывание кусочка печенья) могут не запоминаться от одного кадра к другому. OpenAI знает об этих проблемах и работает над их устранением. Некоторые примеры можно посмотреть на странице Откройте веб-сайт OpenAI Sora, чтобы понять, что мы имеем в виду.

Несмотря на эти ошибки, в дальнейшем OpenAI надеется, что Sora сможет превратиться в реалистичный симулятор физического и цифрового миров. В ближайшие годы технология Сора может быть использована для создания воображаемых виртуальных миров, которые мы сможем исследовать, или позволит нам полностью исследовать реальные места, которые воспроизводятся с помощью ИИ.

Как использовать OpenAI Sora?

На данный момент вы не можете войти в Sora без приглашения: похоже, что OpenAI отбирает отдельных создателей и тестировщиков, чтобы помочь подготовить свою модель искусственного интеллекта, созданную на основе видео, к полноценному публичному выпуску. Как долго продлится этот предварительный период, месяцы или годы, еще неизвестно, но OpenAI ранее демонстрировала готовность двигаться как можно быстрее, когда дело доходит до ее проектов в области ИИ.

Судя по существующим технологиям, обнародованным OpenAI — Dall-E и ChatGPT — вполне вероятно, что Sora первоначально будет доступна в виде веб-приложения. С момента своего запуска ChatGPT стал умнее и добавил новые функции, включая пользовательских ботов, и вполне вероятно, что Sora пойдет по тому же пути, когда будет запущена в полном объеме.

Прежде чем это произойдет, OpenAI заявляет, что хочет установить некоторые меры безопасности: вы не сможете создавать видеоролики, демонстрирующие крайнее насилие, сексуальный контент, ненавистнические изображения или изображения знаменитостей. Существуют также планы по борьбе с дезинформацией путем включения в видеоролики Sora метаданных, указывающих на то, что они были созданы искусственным интеллектом.

Вам также может понравиться


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE