
Моделирование оптических и сигнальных ограничений атак на основе экрана на основе веб-камеры
7 августа 2025 г.Таблица ссылок
Аннотация и I. Введение
II Модель и фон
Iii. Веб -камера заглядывает через очки
IV Познаваемость и факторы размышлений
V. Cyberspace Textula Target Lebrameibility
VI Признание веб -сайта
VII. Дискуссия
VIII. Связанная работа
IX. Заключение, подтверждение и ссылки
Приложение A: Информация о оборудовании
Приложение B: модель угла просмотра
Приложение C: Поведение платформы видеоконференций
Приложение D: Анализ искажений
Приложение E: Веб -текстовые цели
Iii. Веб -камера заглядывает через очки
В этом разделе мы начинаем с технико-экономического обоснования, который показывает 3 ключевых строительных блока модели визитной машины веб-камеры, а именно (1) размер пикселя отражения, (2) угол просмотра и (3) соотношение сигнала / шума (SNR). Для первых двух строительных блоков мы разрабатываем математическую модель, которая количественно определяет связанные с ним факторы воздействия. Для света SNR мы анализируем один основной фактор, который он охватывает, то есть искажения изображения, вызванные шумом выстрела, и исследуем с использованием многокачественного супер-разрешения (MFSR) для улучшения изображений отражения. Мы проанализируем другие физические факторы, которые влияют на свет SNR в разделе IV-D. Эксперименты проводятся с ноутбуком Acer со встроенной веб-камерой 720p, парой очков BLB и парой очков по рецепту, описанным в Приложении A.
А. Технико -экономический тест
Мы проводим технико-экономическое тестирование распознавания отдельных алфавитных букв с аналогичной установкой, как на рисунке 1. Манекен носит BLB-очки с расстоянием стеклянной экрана 30 см. Заглавные буквы с различными высотами Cap (80, 60, 40, 20, 10 мм) отображаются и захватываются веб -камерой. На рисунке 2 (Верхний) показаны захваченные отражения. Мы находим, что 5 различных высот крышки привели к буквам с высотой 40, 30, 20, 10 и 5 пикселей на захваченных изображениях. Как и ожидалось,
Тексты, представленные меньшим количеством пикселей, труднее распознать. Таким образом, размер пикселя отражения, полученный противниками, является одним из ключевых строительных блоков характеристик атаки мощности веб -камеры, которые нам нужно моделировать. Кроме того, на рисунке 2 (нижний) показаны идеальные отражения с этими размерами пикселей путем повторной выборки изображения шаблона. Сравнивая их, мы замечаем, что тексты небольшого размера подвергаются дополнительным искажениям, помимо проблемы небольшого разрешения пикселя и шума, вызванного фоном лица, что приводит к плохому соотношению сигнал / шум (SNR) текстовых сигналов.
Чтобы количественно оценить различия, используя объективные метрики, мы воплощаем понятие качества отражения в сходстве между отраженными текстами и исходными шаблонами. Мы сравнили множественные широко используемые индексы структурного и текстурного сходства изображения, включая индекс структурного сходства (SSIM) [56], SSIM комплекса-вейвла (CWSSIM) [53], сходство характеристик (FSIM) [59], глубокая структура изображения и сходность текстуры (DILES) [32], а также самостоятельные индексы, основанные на масштабах, функциях (SIFT). В целом, мы обнаружили, что CWSSIM, который охватывает интервал [0, 1] с большим числом, представляющим более высокое качество отражения, дает наилучшее соответствие с результатами восприятия человека. На рисунке 2 показаны оценки CWSSIM под каждым изображением.
Различия показывают, что SNR отраженного света, соответствующий текстовым целям, является еще одним ключевым строительным блоком, который мы должны охарактеризовать. Наконец, мы замечаем, что когда мы поворачиваем манекен с углом, превышающим определенный порог, изображения веб -камеры больше не содержат отображаемых букв на экране. Это говорит о том, что угол просмотра является еще одним критическим строительным блоком модели угроз для мочания веб -камеры, которая действует как функция включения/выключения для успешного распознавания содержимого экрана. В следующих разделах мы стремимся охарактеризовать эти три строительных блока.
B. Размер пикселя отражения
n Атака, воплощение текстовых целей претерпевает двухэтапный процесс преобразования: цифровое (программное обеспечение для жертв) → Физическое (экран жертвы) → цифровая (камера противника). На первом этапе, указанные тексты, обычно в размере точки в программном обеспечении пользователем или веб -дизайнерами, отображаются на экране жертвы с соответствующей физической высотой крышки. На втором этапе тексты на экране отражаются в стекле, захваченном
камера, оцифрована и передана в программное обеспечение противника в качестве изображения с определенными размерами пикселей. Как правило, более полезные пиксели, представляющие тексты, позволяют противникам легче распознавать тексты. Таким образом, ключ состоит в том, чтобы понять механизм размера точки → Высота крышки → преобразование размера пикселя.
Размер точки → Высота крышки.Картирование между цифровым размером и физической высотой крышки не является уникальным, но зависит от пользовательских факторов и программного обеспечения. Формула преобразования для большинства веб -браузеров может быть обобщена следующим образом:
Высота крышки → размер пикселя.Мы хотели бы напомнить читателям, что мы используем только размер пикселей, чтобы представлять размер текстов, живущих на изображениях, полученных противником [2]. На рисунке 3 показана модель для этого процесса преобразования. Чтобы упростить модель, мы предполагаем, что линза очков, содержимое экрана и веб -камера выровнены на той же линии с тем же углом. Результатом этого приближения является потеря информации о проективной трансформации, которая вызывает лишь небольшие неточности для оценки размера пикселей отражения в большинстве сценариев мочания веб -камеры. На рисунке 3 изображен только одно измерение из горизонтальных и вертикальных измерений оптической системы, но может использоваться для обоих измерений. В этой работе мы сосредоточены на вертикальном измерении для анализа, то есть размер отражения пикселей, который мы обсуждаем, - это высота отраженных отражений в пикселях. Мы суммируем параметры этой модели системы оптической визуализации в таблице I. Через тригонометрию мы знаем
C. Угол просмотра
D. Характеристика искажения изображения
Как правило, возможные искажения состоит из неотъемлемых искажений и других внешних искажений. Врученные искажения в основном включают в себя размытие из-за фокусировки и различные звуки визуализации, представленные неидеальными схемами камеры. Такие присущие искажения существуют в выходах камеры, даже если пользователь не взаимодействует с камерой. Внешние искажения, с другой стороны, в основном включают такие факторы, как размытие движения, вызванные движением активных пользователей веб -камеры.
Для движения на основе тремора существующие исследования показывают среднее значение амплитуды вытеснения головы пациентов с дистонией составляет менее 4 мм с максимальной частотой около 6 Гц [34]. Поскольку у пациентов с дистонией более сильные тремор, чем у здоровых людей, это дает оценку верхней границы амплитуды тремора. При примере стекла в разделе III-B и камере 30 кадров в секунду расчетное размытие пикселя составляет менее 1 пикселя. Такое размытие движения, вероятно, повлияет на распознавание чрезвычайно мелких отражений. Преднамеренное движение не является центром этой работы из -за ее случайных, случайных и индивидуальных характеристик. Мы будем экспериментально включать влияние преднамеренных движений пользователей в пользовательском исследовании, позволяя пользователям вести себя нормально.
Анализ искажений.Чтобы наблюдать и проанализировать доминирующие типы искажений, мы записали видео с веб -камерой ноутбука и DSLR Nikon Z7 [17], представляющей систему визуализации более высокого качества. Установка такая же, как и тест на технико -экономию технику, за исключением того, что мы протестировали как с неподвижным манекеном, так и с человеком, чтобы проанализировать эффекты человеческого тремора. На рисунке 14 (а) показано сравнение между идеальным захватом отражения и фактическими захватами в трех последовательных видео кадрах веб -камеры (1 -й ряд) и Nikon Z7 (2 -й ряд), когда человек носит очки. Эмпирически мы наблюдали следующие три ключевые особенности видео кадров в этой настройке как с манекеном, так и с человеком (для подробностей см. В Приложении D):
∙ Бесполезное размытие, связанное с тремором, как правило, незначительны, когда отраженные тексты узнаваемы.
∙ Межплатная дисперсия: искажения в одном и том же положении каждого кадра различны, генерируя различные шаблоны шума для каждого кадра.
∙ Интрапрофессиональная дисперсия: даже в одном кадре паттерны искажений пространственно неравномерные.
Одним из ключевых наблюдений является то, что захваченные тексты подвергаются окклюзиях (отсутствующие или выцветшие части), вызванные шумом выстрела [19], когда существует недостаточное количество фотонов, поражающих датчики. Это может быть легко рассуждено в свете короткого времени экспозиции и небольшого размера текстовых пикселей, вызывая снижение фотонов, испускаемых и полученных. Кроме того, другой общий шум визуализации, такой как гауссовый шум, визуально усиливается относительно более высокими значениями ISO из -за чувствительности плохого света датчиков веб -камеры. Мы называем такой шум ISO шум. Оба двух типа искажений могут вызвать внутрифрометичную и межфрометичную дисперсию. Шум и ISO-шут в атаке для мочалки веб-камеры играет на висел с равновесной точкой, связанной с качеством датчиков визуализации камеры. Это говорит о том, что уровень угрозы увеличится (см. Сравнение веб-камеры и изображений Nikon Z7 на рисунке 14), поскольку будущие веб-камеры оснащены датчиками более качественных качественных по более низким затратам.
E. Изображение, улучшающее MFSR.
Анализ искажений требует схемы реконструкции изображения, которая может уменьшить множество типов искажений и переносить межкамерную и внутрипрофлятную дисперсию. Одним из возможных методов является восстановление более качественного изображения из нескольких качественных кадров. Такая проблема реконструкции обычно определяется как многократное супер-разрешение (MFSR) [58]. Основная идея состоит в том, чтобы объединить не излишнюю информацию в нескольких кадрах для создания качества более качества.
Мы протестировали 3 общих легких подхода MFSR, которые не требуют фазы обучения, в том числе кубическая интерполяция сплайн [58], быстрый и надежный MFSR [36] и адаптивная регрессия ядра (AKR) MFSR [41]. Результаты испытаний на изображениях отражения показывают, что подход на основе AKR обычно дает лучшие результаты, чем два других подхода в нашем конкретном приложении и настройке. Все три подхода превосходят простое усреднение плюс рост кадров после регистрации кадров, которые можно рассматривать как деградированную форму MFSR. Пример сравнения между различными методами и исходными 8 кадрами, используемыми для MFSR, показан на рисунке 4 (а). Таким образом, мы используем подход на основе AKR для следующих обсуждений.
Одним из параметров, который нужно решить для использования мочащегося веб-камеры, является количество кадров, используемых для реконструкции высококачественного изображения. На рисунке 4 (b) показано улучшение оценки CWSSIM реконструированного изображения по сравнению с исходными кадрами с различным количеством кадров, используемых для MFSR, когда человек носит очки для создания отражений. Обратите внимание, что увеличение количества кадров не монотонно увеличивает качество изображения, поскольку случайные преднамеренные движения живых пользователей могут снизить эффективность регистрации изображений в процессе MFSR
и, таким образом, подорвать качество реконструкции. Основываясь на результатах, мы эмпирически выбираем 8 кадров для следующих оценок. Кроме того, улучшение баллов CWSSIM также подтверждает, что изображения, получаемые MFSR, имеют лучшее качество, чем большинство оригинальных кадров. Таким образом, мы рассмотрим оценку с использованием изображений MFSR в следующих разделах.
Авторы:
(1) Ян Лонг, Электротехника и компьютерные науки, Университет Мичигана, Энн Арбор, США (yanlong@umich.edu);
(2) Чэнь Ян, Колледж электротехники, Университет Чжэцзян, Ханчжоу, Китай (yanchen@zju.edu.cn);
(3) Шилин Сяо, Колледж электротехники, Университет Чжэцзян, Ханчжоу, Китай (xshilin@zju.edu.cn);
(4) Шиван Прасад, Электротехника и компьютерная наука, Мичиганский университет, Энн Арбор, США (shprasad@umich.edu);
(5) Вениюан Сюй, Колледж электротехники, Университет Чжэцзян, Ханчжоу, Китай (wyxu@zju.edu.cn);
(6) Кевин Фу, электротехника и компьютерные науки, Мичиганский университет, Энн Арбор, США (kenfu@umich.edu).
Эта статья есть
[3] Мы в основном рассмотрим движения, которые параллельны экрану, потому что, как правило, они вызывают более крупные блуски, чем другие типы движений
Оригинал