Рецензирование на «OpenPose — 2D-оценка позы для нескольких человек в реальном времени с использованием полей сходства частей»

Рецензирование на «OpenPose — 2D-оценка позы для нескольких человек в реальном времени с использованием полей сходства частей»

30 марта 2022 г.

В этой статье предлагается подход в режиме реального времени для обнаружения 2D-позы нескольких людей на изображении. OpenPose — это система обнаружения нескольких человек с открытым исходным кодом, поддерживающая ключевые точки тела, рук, ног и лица. Оценка позы человека сосредоточена на поиске людей и их позы на изображении. Эта проблема довольно сложна и довольно сложна для определения количества людей, которые могут появиться на изображении. Кроме того, помехи, вызванные контактом или близостью между людьми, делают объединение частей довольно сложным.


Текущие современные методы используют нисходящую стратегию, которая оценивает позу каждого человека в каждой из обнаруженных областей. Этот подход страдает от проблем с производительностью, поскольку время выполнения прямо пропорционально количеству людей на изображении.


Метод, используемый в статье, использует непараметрическое представление, называемое Part Affinity Fields (PAF). Этот подход использует расположение и ориентацию частей тела для кодирования неструктурированных парных отношений между частями тела людей на изображении. В более ранней версии той же статьи они уточняли как карты достоверности, так и поля сродства частей (PAF) на каждом этапе с использованием разветвленной многоэтапной сверточной нейронной сети (CNN), что привело к гораздо большему количеству вычислений и времени на каждом этапе. [1]


В этой статье основное внимание уделялось совершенствованию существующих методов и архитектуры CNN [1]. Они обнаружили, что уточнение PAF имеет решающее значение для максимальной точности, в то время как уточнение предсказания частей тела не так важно. В статье автор использовал первые 10 слоев модели VGG-19 в качестве базовой сети для извлечения карт признаков. Эти карты признаков вводятся в модель для получения PAF, которые определяют степень связи между частями и картами достоверности, которые затем уточняются с использованием жадного подхода.


Статья OpenPose: оценка 2D-позы нескольких человек в реальном времени с использованием полей сходства частей опубликована Чжэ Цао, студентом IEEE, Гинесом Идальго, студентом IEEE, Томасом Саймоном, Ши-Эн Вей и Ясером Шейхом в разделе IEEE Transactions on Pattern. Журнал «Анализ и машинный интеллект».


Резюме работы, результатов и выводов


На первом этапе карты признаков входного изображения обрабатываются путем его пропускания через базовую сеть. В этой статье автор использует первые 10 слоев модели VGG-19 для создания карт признаков. Затем карты функций обрабатываются с помощью нескольких этапов CNN для создания набора карт достоверности частей и набора полей сходства частей. В системе используется многоступенчатая CNN.


Он состоит из двух типов этапов. Первый набор этапов предсказывает поля сходства частей, т. Е. Степень ассоциации между частями тела, последний набор этапов предсказывает карты достоверности. Заменив каждое сверточное ядро ​​7x7 тремя последовательными ядрами 3x3, текущая модель смогла сохранить рецептивное поле при снижении вычислительных затрат. Используя такой подход, как DenseNet [11], вывод трех ядер свертки объединяется. Этот подход утроил уровни нелинейности и помог модели сохранить функции как более высокого, так и более низкого уровня.


Функция потерь применяется в конце каждого шага в обеих ветвях. Наконец, карты достоверности и поля соответствия частей обрабатываются жадным алгоритмом, в котором используется оптимальное сопоставление графа разделов для получения поз для каждого человека на изображении.


Представлены результаты и выводы, а точность обнаружения ключевых точек для нескольких человек сравнивается с существующими методами [2][3]. Метрика производительности системы в реальном времени была указана путем упоминания количества кадров, которые она может обрабатывать каждую секунду. Все результаты визуализируются, а для лучшего понимания предоставляются графики. Автор обнаружил, что недавно усовершенствованный подход увеличил как скорость, так и точность примерно на 200% и 7% соответственно.


Документ внес свой вклад в область обнаружения стоп, представив аннотированный набор данных о стопах с 15 000 экземпляров человеческих стоп, которые были опубликованы для дальнейшего изучения и разработки. Автор открыл исходный код своей работы, а система OpenPose предоставляет простые в использовании пайплайны с интерфейсами командной строки, API Python и плагином Unity. Он также был включен в библиотеку OpenCV для простоты доступа. Система работает на процессорах и графических процессорах, таких как CUDA и OpenCL.


Они также предоставляют переносимые исполняемые двоичные файлы, которые можно легко загрузить и запустить с минимальной настройкой.


Pose-ShuffleNet — это облегченный метод оценки позы нескольких человек, разработанный путем интеграции концепций этой статьи [4]. Этот метод отлично подходит для сценариев с ограниченными ресурсами. Он основан на строительных блоках модуля ShuffleNet [5] для анализа изображений вместо VGG-19.


Была использована многоступенчатая архитектура с двумя ветвями, совместно обучающими обнаружению частей и ассоциации частей. Pose-ShuffleNet потребляет значительно меньше ресурсов (размер сети и FLOP), чем некоторые из доступных ведущих методов. Используя концепции OpenPose, исследование было расширено до трехмерной оценки позы человека [6].


Были проведены дальнейшие исследования по распознаванию намерений пешеходов и велосипедистов с помощью 2D-оценки позы. В целом, предлагаемый конвейер дает многообещающие результаты по распознаванию намерений уязвимых участников дорожного движения. [7]


Плюсы и минусы бумаги:


Объяснение с помощью графических ссылок лучше проясняет тему и было эффективным для прояснения отношений, упрощения сложных тем и было одним из основных ключевых факторов, которые склонили меня к работе.


Были подтверждены все крайние случаи, а также предложены будущие действия, которые могут смягчить случаи сбоев. Точность и производительность комбинированной модели с ключевыми точками тела и стопы также являются важным вкладом в статью.


Универсальность метода путем применения его к задаче оценки ключевых точек транспортного средства и использование подхода способствовали широкому применению и конкурентоспособности модели. В документе также продемонстрированы три эталонных теста, выполненных на известных и легкодоступных наборах данных, таких как MPII [9], COCO [10] и подмножестве COCO, используемом в качестве набора данных для ног. И предоставьте сравнение анализа времени выполнения с Mask R-CNN и Alpha-Pose для количественной оценки эффективности системы и анализа основных случаев отказа.


Модель работает до 3 раз быстрее на графических процессорах по сравнению с процессорами, а в случае модели тела и стопы разница в производительности составляет до 30 раз. Оптимизация системы для ЦП может помочь сделать модель более доступной в небольших и менее мощных системах и расширить варианты использования. [8]


Потенциальное продвижение и будущая работа


Было достигнуто много достижений в области оценки позы, и она используется в различных областях и приложениях, но в настоящее время практическое применение ограничено из-за проблем, связанных с скоплением людей и закрытыми частями тела. Гибридная система подходов «сверху вниз» и «снизу вверх» вместе с использованием антропометрических соотношений для определения контекста может сделать модель более эффективной [7].


Будущие разработки могут быть сделаны для обеспечения аналогичной производительности на ЦП с использованием облегченных CNN, таких как MobileNetV1, EfficientNet или их комбинации, и могут помочь системе стать более эффективной, чтобы она меньше зависела от графических процессоров и работала на встроенных системах. Он может иметь различные приложения в камерах безопасности, детских мониторах, автоматизации складов, управлении жестами и т. д.


Данные играют ключевую роль в повышении надежности сети. Добавление сложных сценариев человеческих поз вместе с образцами человеческих статуй и картин повысит точность, избегая проблемы закрытых частей тела.


Улучшение жадного подхода может помочь сделать оценку позы более точной. Жадный подход, используемый в текущей системе, страдает от ограниченного структурного контекста, когда субъекты закрыты. Кроме того, используемый венгерский алгоритм [8] имеет кубическую сложность. Используя более широкий структурный контекст подмножества предварительно назначенных частей, а не используя только непосредственных предшественников, как в [7], эта временная сложность может стать линейной по количеству кандидатов любого отдельного класса частей.


Уточнение алгоритма для отклонения менее вероятных или сложных поз и добавление набора данных о животных для обучения системы может иметь широкое применение в борьбе с вредителями, животноводстве, анализе пчел, как показано в разделе «Обнаружение медоносных пчел и оценка поз с использованием сверточных нейронных сетей» [10]. ].


Использованная литература


[1] Цао, Чжэ и др. «Оценка 2D-позы нескольких человек в реальном времени с использованием полей сходства частей». Материалы конференции IEEE по компьютерному зрению и распознаванию образов. 2017.


[2] Фанг, Хао-Шу и др. «Rmpe: Региональная оценка позы нескольких человек». Материалы международной конференции IEEE по компьютерному зрению. 2017.


[3] Хе, Кайминг и др. "Маска р-спн." Материалы международной конференции IEEE по компьютерному зрению. 2017.


[4] Гуань, Чэнь-чжи. «Оценка 2D-позы нескольких человек в реальном времени с использованием shufflenet». 2019 14-я Международная конференция по компьютерным наукам и образованию (ICCSE). ИИЭР, 2019.


[5] Чжан, Сянъюй и др. «Shufflenet: чрезвычайно эффективная сверточная нейронная сеть для мобильных устройств». Материалы конференции IEEE по компьютерному зрению и распознаванию образов. 2018.


[6] Шварц, Стивен и Томас Поллард. «Оценка позы человека в 3D из глубокой многоракурсной 2D-позы». 2018 24-я Международная конференция по распознаванию образов (ICPR). ИИЭР, 2018.


[7] Фанг, Чжицзе и Антонио М. Лопес. «Распознавание намерений пешеходов и велосипедистов по двухмерной оценке позы». IEEE Transactions on Intelligent Transport Systems 21.11 (2019): 4773-4783.


[8] Осокин, Даниил. «Оценка позы нескольких человек в режиме реального времени на процессоре: облегченная открытая поза». Препринт arXiv arXiv: 1811.12004 (2018).


[9] Андрилука, Михаил и др. «Двухмерная оценка позы человека: новый эталон и современный анализ». Материалы конференции IEEE по компьютерному зрению и распознаванию образов. 2014.


[10] Rodríguez, I.F., et al. «Обнаружение медоносных пчел и оценка позы с использованием сверточных нейронных сетей». Congres Reconnaissance des Formes, Image, Apprentissage et Perception (RFIAP). 2018.


[11] Хуанг, Гао и др. «Плотно связанные сверточные сети». Материалы конференции IEEE по компьютерному зрению и распознаванию образов. 2017.


Статьи по Теме


  • [Обработка и классификация данных в наборе данных о горных породах] (https://www.milindsoorya.com/blog/data-wrangling-and-classification-on-rock-dataset)

  • [Мистическая классификация рукописных цифр с использованием CNN] (https://www.milindsoorya.com/blog/handwriting-digit-classification-using-cnn)

  • [Установите блокнот jupyter на Ubuntu 20.04 с помощью virtualenv] (https://www.milindsoorya.com/blog/how-to-Set-up-jupyter-notebook-with-python-3-on-ubuntu-20.04)

  • [Веб-приложение для анализа настроений с использованием Python и NLTK] (https://www.milindsoorya.com/blog/sentiment-analysis-using-python)

  • [Добавить анаконду в контекстное меню в Windows] (https://www.milindsoorya.com/blog/add-anaconda-to-right-click-menu-in-windows)

  • [Как открыть возвышенный текст из командной строки Windows] (https://www.milindsoorya.com/blog/how-to-open-sublime-text-from-the-windows-command-line)


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE