Как создавать 3D-контент на основе ИИ
4 марта 2023 г.Привет! Добро пожаловать в Inside the Lab, блог об исследованиях и разработках artlabs. Тема этой недели — как 3D-контент представляется и обрабатывается с помощью методологий ИИ, как ИИ использует эти представления для создания 3D-контента, а также плюсы и минусы. минусы этих методов.
Модели машинного обучения обучаются с использованием различных представлений 3D-контента, таких как воксели, облака точек, поля расстояний со знаком, поля нейронного излучения (NeRF), полигональные сетки… В этом посте мы поговорим о представлениях вокселей, облаков точек, NeRF и полигонов. Давайте рассмотрим их один за другим.
Воксели
Вы знаете об элементах изображения (также известных как пиксели), но слышали ли вы когда-нибудь об элементах объема (также известных как воксели)? Теперь вы сделали! Пиксели представлены как значения интенсивности красного, зеленого и синего цветов с дополнительным значением непрозрачности от 0 до 255 на двумерной сетке, представленной координатами x и y. Воксели также состоят из значений красного, зеленого, синего и непрозрачности на трехмерной сетке. Модели искусственного интеллекта стремятся изучить эти 4 значения для каждого вокселя, чтобы эффективно представить сцену.
Модели машинного обучения, такие как 3D-R2N2 (2016 г.), Pix2Vox/++ (2019/2020) и EVoIT (2021 г.) использовать преимущества простоты воксельного представления и использовать многоракурсные изображения объекта для реконструкции этого объекта в виде воксельной сетки. .
Преимущества воксельного представления
- Самое простое представление 3D-контента. Представление представляет собой просто значения красного, зеленого, синего и непрозрачности для каждого куба в сетке.
- Легко построить модель машинного обучения. Поскольку представление простое, модели легче его изучить.
Недостатки воксельного представления
- Разрешение, и оно большое! Воксельная сетка с длиной ребра 512 на самом деле содержит более 134 миллионов точек данных, в то время как изображение 4096x4096 содержит чуть более 16 миллионов, и мы знаем, насколько большим может быть размер файла изображения 4K. Существует множество способов сжатия файлов вокселей для уменьшения их размера. Однако нынешние модели машинного обучения по-прежнему с трудом справляются с таким объемом информации. Конечно, можно преодолеть это ограничение, если не хранить пустые воксели в памяти или идти дальше и сжимать больше. Но это сжатие нельзя применять во время машинного обучения, поскольку сжатие может быть выполнено после того, как воксельная сетка построена, а то, что делается с помощью машинного обучения, по-прежнему является «построением».
- Визуализация. Графические процессоры оптимизированы для рендеринга полигонов, и нет специального оборудования для эффективного рендеринга вокселей с высоким разрешением.
Возможные варианты использования в отрасли
Воксели очень хороши, если вы хотите представить кубические формы. Как есть пиксель-арт, так и 3D-арт на основе вокселей. Кроме того, кто не хочет создавать миры, подобные Minecraft?! Метавселенные, такие как Sandbox, также используют представления вокселей, и создание вокселей на основе ИИ также может помочь улучшить их.
Облака точек
Ну, вы уже догадались: облака точек — это облака, образованные цветными точками в трехмерном пространстве. В отличие от вокселей, они не содержатся в сетке, поэтому вы можете лучше представить более широкий диапазон объектов с помощью облаков точек. Однако, поскольку сетки нет, необходимо также учитывать положение каждой точки в трехмерном пространстве. Это означает, что вам нужно хранить больше данных по сравнению с вокселями для каждой точки данных.
Такие модели, как OpenAI Point-E (2022 г.), продемонстрировали успех в создании 3D-контента на основе облака точек. Однако, как и у всего хорошего в мире, у облаков точек есть свои преимущества и недостатки.
Преимущества представления облака точек
- Улучшенная обработка мелких деталей по сравнению с вокселями. Облака точек могут быть плотными или разреженными. При разрежении легко упустить большую часть деталей, но когда облако точек плотное, можно очень хорошо представить исходный объект/форму.
- Отлично подходит для представления больших сцен! LiDAR — отличный способ получить облака точек, и они широко используются в интеллектуальных транспортных средствах. Есть несколько примеров сканирования дронами целой местности, включая леса, фабрики, стадионы, городские площади и т. д. Они даже создали облако точек всего города Дюссельдорф!
Недостатки представления облака точек
- Нет громкости. Даже если облако точек плотное, оно состоит из точек, а точки не могут представлять объем.
- Визуализация. Поскольку в облаке точек нет полигонов, современные графические процессоры вообще не могут отображать облака точек. Они также не могут быть использованы для производства. Облака точек можно преобразовать в полигональные сетки, однако текущие алгоритмы реконструируют неравномерные выходные данные.
Возможные варианты использования в отрасли
Облака точек широко используются в нескольких отраслях. Их можно получить с помощью LiDAR, установленных на дронах или умных автомобилях. Можно создавать объекты облака точек и среды с помощью ИИ, чтобы использовать их в симуляциях для улучшения алгоритмов, которые используются для улучшения беспилотных транспортных средств. Кроме того, они также используются в медицинской визуализации. Создание облаков медицинских точек на основе искусственного интеллекта также может улучшить обнаружение заболеваний и физических травм у пациентов.
Поля нейронного излучения (NeRF)
Учитывая набор изображений и соответствующую информацию о положении камеры, NeRF может реконструировать 3D-сцену, определяя, где находится каждый пиксель на изображение соответствует в трехмерном пространстве. Как только сцена реконструирована, NeRF может обеспечить полное трехмерное изображение сцены даже с невидимых углов. Более того, само представление — это ИИ! По сути, это нейронная сеть, содержащая всю информацию, необходимую для рендеринга 3D-сцены. Сцена представлена в нейронной сети, и при запросе новой позы камеры нейронная сеть может ответить новой визуализацией этого вида. В то время как исходную сеть NeRF нужно было обучать часами (в некоторых случаях — днями), несколько новых вариантов NeRF могут реконструировать высококачественную 3D-сцену всего за несколько секунд.
Преимущества представления NeRF
- Сцена представляется такой, какой мы ее воспринимаем с помощью камеры, и мы можем видеть ее под невидимыми ранее углами. Можно легко сказать, что с помощью NeRF можно получить мелкие детали.
- Визуализация. Основная цель модели – отобразить сцену под новым углом обзора.
Недостатки представления NeRF
- Нет громкости. 3D-сцены, реконструированные с помощью Neural Radiance Field, на самом деле являются визуализацией. Следовательно, их нельзя использовать для физического моделирования, производства и т. д.
- Они представляют собой реконструкцию 3D-сцены, но не позволяют редактировать сцену. Существуют методы отделения объекта от фона, но тем не менее вы не можете поместить NeRF внутри другого NeRF, как вы можете сделать с полигонами, вокселами или облаками точек.
Возможные варианты использования в отрасли
Neural Radiance Fields может отображать сцены под любым углом и потенциально может широко использоваться в кинематографии. Широко известно, что угол камеры и движение очень важны в кинематографии, и NeRF могут создавать рендеры с ракурсов, с которыми у оператора могут возникнуть проблемы.
Полигональная сетка
Полигональные сетки состоят из точек (а именно, вершин), линий, соединяющих эти точки друг с другом (а именно, ребер), и полигонов, построенных между этими ребрами. Вершины представлены своими координатами; ребра представлены тем, какие вершины они соединяют, а многоугольники представлены теми ребрами, на которых они строятся. Кроме того, существует несколько способов представления цвета на сетках: от простого окрашивания каждой вершины значениями интенсивности красного, зеленого и синего до принятия решения о том, как этот цвет будет взаимодействовать с любым заданным светом, путем предоставления свойств материала, таких как диффузия, зеркальность, непрозрачность, преломление. индекс, нормали поверхности и т. д.
Такие методы, как NVDiffrec-MC (2022), могут вывести триплет сетки, света и материала, используя наборы изображений. В последнее время было разработано гораздо больше методов для восстановления мешей и текстур из текста или изображений: GET3D, DreamFusion, оценка якобианской цепочки , Magic3D…
Преимущества представления полигональной сетки
- Аппаратное обеспечение графического процессора оптимизировано для многоугольных представлений, поэтому полигональные сетки проще всего отображать и визуализировать. Они широко используются для игр, CGI, VFX, AR/VR... Вы называете это!
- Дизайнеры могут экспериментировать с различными параметрами сетки и материалов, чтобы создавать уникальные дизайны с очень мелкими деталями.
- Уровнем детализации можно легко управлять, изменяя количество вершин и полигонов.
- Существуют очень продвинутые инструменты для редактирования сетки, и в настоящее время сетки можно изменять относительно легко.
Недостатки представления полигональной сетки
- Структура сложная. Чтобы модели ИИ могли создавать сетки, нейронные модели должны уметь генерировать вершины, ребра, многоугольники, материалы и цвета.
- Разработка и создание сеток с нуля без искусственного интеллекта требует особенно много времени и очень сложна в масштабировании.
Возможные варианты использования в отрасли
Полигональные сетки уже используются в играх, кинематографии, Web3 и XR. Многие отрасли, такие как электронная коммерция, очень выигрывают от полигональных сеток, визуализируя свои продукты в 3D. Создавая контент с помощью ИИ, все эти отрасли могут создавать контент в масштабе и восхищать свою аудиторию.
В artlabs мы используем все эти представления и искусственный интеллект в разных частях нашего конвейера. Узнайте больше о том, как artlabs использует искусственный интеллект для создания масштабного контента здесь.
Спасибо за прочтение! Увидимся в следующем посте «Inside the Lab» 👋🏻
Автор: Доганкан Кебуде, руководитель отдела исследований и разработок артлабы
Оригинал