Разработка XR с Oracle, эпизод 3: ИИ компьютерного зрения, машинное обучение и метавселенная

Разработка XR с Oracle, эпизод 3: ИИ компьютерного зрения, машинное обучение и метавселенная

12 апреля 2022 г.

Это третья статья из серии, посвященной разработке XR-приложений и опыту с использованием Oracle, в которой основное внимание уделяется XR-приложениям для искусственного интеллекта и машинного зрения компьютерного зрения и их соответствующему использованию в метавселенной.

Первую часть можно найти здесь и  вторую часть можно найти здесь.


Опять же, я специально покажу приложения, разработанные с использованием баз данных Oracle и облачных технологий, HoloLens 2, Mixed Reality Toolkit и платформы Unity.


На протяжении всего блога я буду ссылаться на соответствующее демонстрационное видео.


https://www.youtube.com/watch?v=40ADd-ALkcc


Расширенная реальность (XR), Metaverse и HoloLens


Я отсылаю читателя к первой части этой серии для обзора XR и Hololens.


Первый блог из этой серии был основан на семинаре по микросервисам, управляемым данными и продемонстрировал ряд аспектов, которые будут присутствовать в метавселенной, например онлайн-покупки, путем взаимодействия с 3D-модели продуктов питания/продуктов, 3D-пространственные карты реального мира и т. д., а также бэкэнд DevOps (трассировка Kubernetes и OpenTelemetry) и т. д.


Второй блог был основан на ряде [семинаров по графам] (https://developer.oracle.com/livelabs) и демонстрировал визуализацию, создание и манипулирование моделями, блокнотами, макетами и выделениями для анализа графов свойств, используемых в социальных сетях. графики, нейронные сети и финансовый сектор (например, обнаружение отмывания денег).


В обоих этих блогах, а также в этом третьем блоге можно делиться предметом и активно сотрудничать, даже в режиме реального времени, удаленно. Эти типы способностей являются ключевыми для концепции метавселенной и будут расширены и распространены на такие концепции, как цифровые двойники, в этих будущих частях.


В этом блоге не будет подробно рассматриваться ИИ компьютерного зрения, а вместо этого основное внимание будет уделено реализации XR, а также базе данных и облаку Oracle.


Возможности и возможности компьютерного зрения с XR


ИИ компьютерного зрения предоставляет ряд возможностей, включая классификацию изображений, обнаружение объектов, обнаружение текста и ИИ документов.


Я в основном использую Hololens для демонстрации концепций в этой серии, поскольку это технология, наиболее близкая к тому, что будет наиболее распространенным и повседневным использованием XR в будущем, однако концепции, которые я показываю в этих блогах, могут быть применены в той или иной степени. в разных вариантах XR и устройствах (и я действительно буду приводить такие примеры в будущих блогах).


Общим для большинства, если не для всех, этих устройств является визуальный интерфейс (т. е. компьютер и камера) между пользователем и реальным миром. По своей сути он имеет возможность захватывать и обрабатывать визуальные стимулы, окружающие пользователя, поэтому связь между ним и компьютерным зрением AI является логичной и синергетической.


Это также относится к звуку и речи ИИ, которые я также продемонстрирую в следующей статье.


Классификация изображений и обнаружение объектов


Представьте потенциальную возможность помочь людям с нарушениями зрения, болезнью Альцгеймера, ... с помощью устройства XR, предоставляющего контекстную аудио- и визуальную обратную связь об окружении.


В первой части видео показано обнаружение объектов, примененное к XR. Это этапы, связанные...


  1. Hololens делает снимок текущего вида пользователя (я использую для этого специальную кнопку, но, конечно, это можно было бы делать автоматически, периодически, в ответ на голосовую команду и т. д.).

  1. \

  1. Это изображение автоматически загружается в хранилище объектов и базу данных Oracle для дальнейшего анализа. Это само по себе является удобной функцией для хранения данных, извлеченных из пользовательского окружения, без необходимости пользователю явно указывать или даже знать о различной собираемой контекстной и т. д. информации.

  1. Затем изображение обрабатывается службой Vision AI, и ответ JSON, содержащий имя, достоверность, bondingPolygon normalizedVertices, классификацию и т. д., возвращается в Hololens. Вот как обработка изображения и ответ JSON, отправленный в Hololens, выглядят в облачной консоли Oracle...


  1. Затем приложение Hololens обрабатывает этот JSON, используя вершины/координаты для воссоздания многоугольников/прямоугольников и меток.

  1. Местоположение пользователя (т.е. камера гарнитуры Hololens) было сохранено, когда был сделан первоначальный снимок, и сделан рейкаст из этой точки через координаты 2d прямоугольников на 3d пространственную сетку поверхности комнаты. (Обратите внимание, что 2D-представление показано в демонстрации только для иллюстрации описанной процедуры, и, вероятно, в реальном приложении будет существовать только конечный результат пространственно сопоставленных кубов.)

  1. Затем создаются 3D-кубы в точках пересечения этих рейкастов на сетке поверхности.

  1. Кроме того, после создания метки передаются в программу преобразования речи в текст, которая произносит имя объекта. Этот звук также имеет трехмерное пространственное отображение.

  1. Это обеспечивает чрезвычайно эффективную и быструю технику, поскольку одно 2D-изображение используется для визуального и звукового отображения входа в 3D, и это сопоставление сохраняется в тех же самых местах после перезапуска Hololens/приложения. (Точность и т. д., конечно, можно было бы еще больше повысить с помощью нескольких дублей/фотографий и захвата автоматически, без необходимости пользователю нажимать кнопку и т. д.)



Представьте себе потенциал помощи при ухудшении зрения, болезни Альцгеймера, идентификации неизвестных и трудно изолируемых объектов, анализе угроз, интересов и т. д., когда устройство XR дает контекстную аудио- и визуальную обратную связь об окружении!


Эта информация/представление, в свою очередь, может использоваться в метавселенной для любого количества различных устройств XR (включая обычные телефоны и простые компьютерные мониторы) для облегчения цифровых двойников, совместной работы и т. д. очень эффективным и легким способом, который одновременно использует преимущества мощные возможности базы данных Oracle и/или в облаке.


Документ ИИ


Представьте себе использование XR и ИИ для улучшения социальных взаимодействий и участия в более содержательных разговорах В РЕАЛЬНОЙ ЖИЗНИ.


Во второй части видео показано использование службы искусственного интеллекта для документов, опять же с техникой захвата камеры Hololens, используемой в первой части видео, за исключением того, что на этот раз идентифицируется текст с изображения (с разной ориентацией, расстоянием и т. д.). . Опять же, это может быть использовано для помощи пользователю в чтении и т. д., как в примере с обнаружением объектов, а также может быть использовано в мощных возможностях машинного обучения базы данных Oracle для запуска обработки любого количества моделей, блокнотов и т. д. В этом случае я сканировать книги. Это снимок той картинки с обработанным текстом в консоли OCI.



Мы могли бы, как я сделал в первом блоге, использовать это, чтобы сделать предложения относительно других книг, которые связаны, или, как я сделал во втором блоге, провести некоторый анализ графика, чтобы найти корреляции и общие черты. Однако в этом конкретном примере я передал текст нескольким моделям диалогов GPT-3, которые затем дали обратную связь в диалоговом ответе. Этот ответ или, опять же, любая информация из различных моделей может быть предоставлена ​​пользователю, например, для того, чтобы завязать разговор с владельцем книг.



Это, конечно, не ограничивается книгами или разговорами. Возможности действительно безграничны в том, что касается использования этой комбинации XR и предоставления пользователю информации и анализа среды, в которой он находится (то, что технология Oracle прекрасно позволяет).


Я также могу представить пользователя, рекламирующего или «носящего» информацию о себе точно так же, как он носит одежду и т. д., но потенциально более сложным образом, передающим моду (имея в виду «моду» в обоих смыслах этого слова и значение «чувства» в обоих смыслах). определения этого слова). Метавселенная полна разговоров о компаниях, которые ищут новые способы рекламы и взаимодействия в виртуальном мире. Пользователи должны иметь как минимум столько же возможностей для самовыражения и делать это в реальном мире.


Дополнительные мысли


Я дал несколько идей и примеров того, как компьютерное зрение AI и XR можно использовать вместе. Я с нетерпением жду возможности опубликовать больше блогов по этой теме и другим областям XR с Oracle Cloud and Database.


См. статьи, которые я публикую на HackerNoon, чтобы получить дополнительную информацию об облаке XR и Oracle и конвергентной базе данных, а также различные темы, связанные с микросервисами, наблюдаемостью, обработкой транзакций и т. д. Также , пожалуйста, не стесняйтесь обращаться ко мне с любыми вопросами или предложениями для новых блогов и видео, так как я очень открыт для предложений. Спасибо за чтение и просмотр.


Также опубликовано на [официальном сайте Oracle] (https://blogs.oracle.com/developers/post/develop-xr-with-oracle-ep-3-computer-vision-ai-ml-and-metaverse).



Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE