Как создавать 3D-контент на основе ИИ

Как создавать 3D-контент на основе ИИ

4 марта 2023 г.

Привет! Добро пожаловать в Inside the Lab, блог об исследованиях и разработках artlabs. Тема этой недели — как 3D-контент представляется и обрабатывается с помощью методологий ИИ, как ИИ использует эти представления для создания 3D-контента, а также плюсы и минусы. минусы этих методов.

Модели машинного обучения обучаются с использованием различных представлений 3D-контента, таких как воксели, облака точек, поля расстояний со знаком, поля нейронного излучения (NeRF), полигональные сетки… В этом посте мы поговорим о представлениях вокселей, облаков точек, NeRF и полигонов. Давайте рассмотрим их один за другим.

Воксели

The image is taken from Voxel Grid by Matthias Humt

Вы знаете об элементах изображения (также известных как пиксели), но слышали ли вы когда-нибудь об элементах объема (также известных как воксели)? Теперь вы сделали! Пиксели представлены как значения интенсивности красного, зеленого и синего цветов с дополнительным значением непрозрачности от 0 до 255 на двумерной сетке, представленной координатами x и y. Воксели также состоят из значений красного, зеленого, синего и непрозрачности на трехмерной сетке. Модели искусственного интеллекта стремятся изучить эти 4 значения для каждого вокселя, чтобы эффективно представить сцену.

The image is taken from Fig. 2 of EVoIT paper

Модели машинного обучения, такие как 3D-R2N2 (2016 г.), Pix2Vox/++ (2019/2020) и EVoIT (2021 г.) использовать преимущества простоты воксельного представления и использовать многоракурсные изображения объекта для реконструкции этого объекта в виде воксельной сетки. .

Преимущества воксельного представления

  1. Самое простое представление 3D-контента. Представление представляет собой просто значения красного, зеленого, синего и непрозрачности для каждого куба в сетке.
  2. Легко построить модель машинного обучения. Поскольку представление простое, модели легче его изучить.

Недостатки воксельного представления

  1. Разрешение, и оно большое! Воксельная сетка с длиной ребра 512 на самом деле содержит более 134 миллионов точек данных, в то время как изображение 4096x4096 содержит чуть более 16 миллионов, и мы знаем, насколько большим может быть размер файла изображения 4K. Существует множество способов сжатия файлов вокселей для уменьшения их размера. Однако нынешние модели машинного обучения по-прежнему с трудом справляются с таким объемом информации. Конечно, можно преодолеть это ограничение, если не хранить пустые воксели в памяти или идти дальше и сжимать больше. Но это сжатие нельзя применять во время машинного обучения, поскольку сжатие может быть выполнено после того, как воксельная сетка построена, а то, что делается с помощью машинного обучения, по-прежнему является «построением».
  2. Визуализация. Графические процессоры оптимизированы для рендеринга полигонов, и нет специального оборудования для эффективного рендеринга вокселей с высоким разрешением.

Возможные варианты использования в отрасли

Воксели очень хороши, если вы хотите представить кубические формы. Как есть пиксель-арт, так и 3D-арт на основе вокселей. Кроме того, кто не хочет создавать миры, подобные Minecraft?! Метавселенные, такие как Sandbox, также используют представления вокселей, и создание вокселей на основе ИИ также может помочь улучшить их.

Облака точек

The image is taken from Point Cloud by Matthias Humt

Ну, вы уже догадались: облака точек — это облака, образованные цветными точками в трехмерном пространстве. В отличие от вокселей, они не содержатся в сетке, поэтому вы можете лучше представить более широкий диапазон объектов с помощью облаков точек. Однако, поскольку сетки нет, необходимо также учитывать положение каждой точки в трехмерном пространстве. Это означает, что вам нужно хранить больше данных по сравнению с вокселями для каждой точки данных.

The image is taken from Fig. 2 of Point-E paper.

Такие модели, как OpenAI Point-E (2022 г.), продемонстрировали успех в создании 3D-контента на основе облака точек. Однако, как и у всего хорошего в мире, у облаков точек есть свои преимущества и недостатки.

Преимущества представления облака точек

  1. Улучшенная обработка мелких деталей по сравнению с вокселями. Облака точек могут быть плотными или разреженными. При разрежении легко упустить большую часть деталей, но когда облако точек плотное, можно очень хорошо представить исходный объект/форму.
  2. Отлично подходит для представления больших сцен! LiDAR — отличный способ получить облака точек, и они широко используются в интеллектуальных транспортных средствах. Есть несколько примеров сканирования дронами целой местности, включая леса, фабрики, стадионы, городские площади и т. д. Они даже создали облако точек всего города Дюссельдорф!

Недостатки представления облака точек

  1. Нет громкости. Даже если облако точек плотное, оно состоит из точек, а точки не могут представлять объем.
  2. Визуализация. Поскольку в облаке точек нет полигонов, современные графические процессоры вообще не могут отображать облака точек. Они также не могут быть использованы для производства. Облака точек можно преобразовать в полигональные сетки, однако текущие алгоритмы реконструируют неравномерные выходные данные.

Возможные варианты использования в отрасли

Облака точек широко используются в нескольких отраслях. Их можно получить с помощью LiDAR, установленных на дронах или умных автомобилях. Можно создавать объекты облака точек и среды с помощью ИИ, чтобы использовать их в симуляциях для улучшения алгоритмов, которые используются для улучшения беспилотных транспортных средств. Кроме того, они также используются в медицинской визуализации. Создание облаков медицинских точек на основе искусственного интеллекта также может улучшить обнаружение заболеваний и физических травм у пациентов.

Поля нейронного излучения (NeRF)

https://twitter.com/artlabsai/status/1533886138380759040?ref_src=twsrc^tfw|twcamp^tweetembed|twterm^1533886138380759040|twgr^8879822ba3b48e96b902e645574afd72e5dd04e7|twcon^s1_&ref_url=https %3A%2F%2Fcdn.embedly.com%2Fwidgets%2Fmedia.html%3Ftype%3Dtext2Fhtmlkey%3Da19fcc184b9711e1b4764040d3dc5c07schema%3Dtwitterurl%3Dhttps3A%2F%2Ftwitter.com%2Fartlabsai%2Fstatus%2F15338861383807590403Fs3D20image%3Dhttps3A %2F%2Fi.embed.ly%2F1%2Fimage3Furl3Dhttps253A252F252Fabs.twimg.com252Ferrors252Flogo46x38.png26key3Da19fcc184b9711e1b4764040d3dc5c07&embedable=true

Учитывая набор изображений и соответствующую информацию о положении камеры, NeRF может реконструировать 3D-сцену, определяя, где находится каждый пиксель на изображение соответствует в трехмерном пространстве. Как только сцена реконструирована, NeRF может обеспечить полное трехмерное изображение сцены даже с невидимых углов. Более того, само представление — это ИИ! По сути, это нейронная сеть, содержащая всю информацию, необходимую для рендеринга 3D-сцены. Сцена представлена ​​в нейронной сети, и при запросе новой позы камеры нейронная сеть может ответить новой визуализацией этого вида. В то время как исходную сеть NeRF нужно было обучать часами (в некоторых случаях — днями), несколько новых вариантов NeRF могут реконструировать высококачественную 3D-сцену всего за несколько секунд.

Преимущества представления NeRF

  1. Сцена представляется такой, какой мы ее воспринимаем с помощью камеры, и мы можем видеть ее под невидимыми ранее углами. Можно легко сказать, что с помощью NeRF можно получить мелкие детали.
  2. Визуализация. Основная цель модели – отобразить сцену под новым углом обзора.

Недостатки представления NeRF

  1. Нет громкости. 3D-сцены, реконструированные с помощью Neural Radiance Field, на самом деле являются визуализацией. Следовательно, их нельзя использовать для физического моделирования, производства и т. д.
  2. Они представляют собой реконструкцию 3D-сцены, но не позволяют редактировать сцену. Существуют методы отделения объекта от фона, но тем не менее вы не можете поместить NeRF внутри другого NeRF, как вы можете сделать с полигонами, вокселами или облаками точек.

Возможные варианты использования в отрасли

Neural Radiance Fields может отображать сцены под любым углом и потенциально может широко использоваться в кинематографии. Широко известно, что угол камеры и движение очень важны в кинематографии, и NeRF могут создавать рендеры с ракурсов, с которыми у оператора могут возникнуть проблемы.

Полигональная сетка

The image is taken from UPenn 3D Graphics Tutorials

Полигональные сетки состоят из точек (а именно, вершин), линий, соединяющих эти точки друг с другом (а именно, ребер), и полигонов, построенных между этими ребрами. Вершины представлены своими координатами; ребра представлены тем, какие вершины они соединяют, а многоугольники представлены теми ребрами, на которых они строятся. Кроме того, существует несколько способов представления цвета на сетках: от простого окрашивания каждой вершины значениями интенсивности красного, зеленого и синего до принятия решения о том, как этот цвет будет взаимодействовать с любым заданным светом, путем предоставления свойств материала, таких как диффузия, зеркальность, непрозрачность, преломление. индекс, нормали поверхности и т. д.

The image is taken from Magic3D Project Page

Такие методы, как NVDiffrec-MC (2022), могут вывести триплет сетки, света и материала, используя наборы изображений. В последнее время было разработано гораздо больше методов для восстановления мешей и текстур из текста или изображений: GET3D, DreamFusion, оценка якобианской цепочки , Magic3D

https://twitter.com/artlabsai/status/1601252006190264320?ref_src=twsrc^tfw|twcamp^tweetembed|twterm^1601252006190264320|twgr^3ede4da6196352061e568b0b5ebc890a6cfcb19b|twcon^s1_&ref_url=https %3A%2F%2Fcdn.embedly.com%2Fwidgets%2Fmedia.html%3Ftype%3Dtext2Fhtmlkey%3Da19fcc184b9711e1b4764040d3dc5c07schema%3Dtwitterurl%3Dhttps3A%2F%2Ftwitter.com%2Fartlabsai%2Fstatus%2F16012520061902643203Fs3D20image%3Dhttps3A %2F%2Fi.embed.ly%2F1%2Fimage3Furl3Dhttps253A252F252Fabs.twimg.com252Ferrors252Flogo46x38.png26key3Da19fcc184b9711e1b4764040d3dc5c07&embedable=true

Преимущества представления полигональной сетки

  1. Аппаратное обеспечение графического процессора оптимизировано для многоугольных представлений, поэтому полигональные сетки проще всего отображать и визуализировать. Они широко используются для игр, CGI, VFX, AR/VR... Вы называете это!
  2. Дизайнеры могут экспериментировать с различными параметрами сетки и материалов, чтобы создавать уникальные дизайны с очень мелкими деталями.
  3. Уровнем детализации можно легко управлять, изменяя количество вершин и полигонов.
  4. Существуют очень продвинутые инструменты для редактирования сетки, и в настоящее время сетки можно изменять относительно легко.

Недостатки представления полигональной сетки

  1. Структура сложная. Чтобы модели ИИ могли создавать сетки, нейронные модели должны уметь генерировать вершины, ребра, многоугольники, материалы и цвета.
  2. Разработка и создание сеток с нуля без искусственного интеллекта требует особенно много времени и очень сложна в масштабировании.

Возможные варианты использования в отрасли

Полигональные сетки уже используются в играх, кинематографии, Web3 и XR. Многие отрасли, такие как электронная коммерция, очень выигрывают от полигональных сеток, визуализируя свои продукты в 3D. Создавая контент с помощью ИИ, все эти отрасли могут создавать контент в масштабе и восхищать свою аудиторию.

В artlabs мы используем все эти представления и искусственный интеллект в разных частях нашего конвейера. Узнайте больше о том, как artlabs использует искусственный интеллект для создания масштабного контента здесь.

Спасибо за прочтение! Увидимся в следующем посте «Inside the Lab» 👋🏻

Автор: Доганкан Кебуде, руководитель отдела исследований и разработок артлабы


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE