P-HAR: Распознавание порнографических действий человека

Распознавание действий человека стало активной областью исследований в сообществе глубокого обучения. Основная цель заключается в идентификации и классификации действий человека в видео с использованием нескольких входных потоков, таких как видео- и аудиоданные.

Одно конкретное применение этой технологии связано с областью порнографии, где возникают уникальные технические проблемы, усложняющие процесс распознавания действий человека. Такие факторы, как вариации освещения, окклюзии и существенные различия в ракурсах камеры и методах съемки, затрудняют распознавание действия.

Даже когда два действия идентичны, различные перспективы камеры могут привести к путанице в прогнозах модели. Чтобы решить эти проблемы в области порнографии, мы использовали глубокое обучение методы, которые обучаются на различных входных потоках, включая RGB, Skeleton (Pose) и аудиоданные. Наиболее эффективные модели с точки зрения производительности и времени выполнения включают архитектуры на основе преобразователя для потока RGB, PoseC3D для скелетного потока и ResNet101 для аудиопотока.

Результаты этих моделей объединяются с использованием позднего слияния, при этом значимость каждой модели в окончательной схеме оценки различается. Альтернативная стратегия может включать обучение модели с двумя входными потоками одновременно, например, RGB+скелет или RGB+аудио, и последующее объединение их результатов. Однако этот подход не подходит из-за свойств, присущих данным.

Входные аудиопотоки полезны только для определенных действий, в то время как другим действиям не хватает определенных звуковых характеристик. Точно так же модель на основе скелета применима только тогда, когда оценка позы превышает определенный доверительный порог, который сложно достичь для некоторых действий.

Используя метод позднего слияния, подробно описанный в последующих разделах, мы достигаем впечатляющей точности в 90% для двух лучших прогнозов среди 20 различных категорий. Эти категории охватывают широкий спектр сексуальных действий и поз.