
Исследование пользователя оценивает риски отражения век в атаках на основе веб-камеры
7 августа 2025 г.Таблица ссылок
Аннотация и I. Введение
II Модель и фон
Iii. Веб -камера заглядывает через очки
IV Познаваемость и факторы размышлений
V. Cyberspace Textula Target Lebrameibility
VI Признание веб -сайта
VII. Дискуссия
VIII. Связанная работа
IX. Заключение, подтверждение и ссылки
Приложение A: Информация о оборудовании
Приложение B: модель угла просмотра
Приложение C: Поведение платформы видеоконференций
Приложение D: Анализ искажений
Приложение E: Веб -текстовые цели
V. Cyberspace Textula Target Lebrameibility
Оценки до сих пор основаны на физическом размере текста и проводятся в контролируемых средах, чтобы лучше охарактеризовать независимые от пользователя компоненты модели отражения, а также диапазон теоретических ограничений для мочания веб-камеры. В этом разделе мы начнем с картирования пределов с общими объектами киберпространства, чтобы понять потенциальные восприимчивые цели. Затем мы проводим исследование пользователя с 20 участниками с локальными и Zoom Recordings, чтобы исследовать осуществимость и проблемы, связанные с тем, чтобы заглянуть в эти цели и влияние различных факторов.
A. Картирование теоретических ограничений с целями
Мы используем веб -тексты в качестве просвещающего примера текстовых целей киберпространства, рассматривающих их широкое использование и относительно зрелые соглашения HTML и CSS. Обсуждение основано на (1) предыдущем отчете [48], чтобы очистить самые популярные 1000 веб-сайтов на рейтинге Alex Web [8], и (2) ручная проверка 117 веб-сайтов с большим фондом, архимированных на SiteInspire [10]. Мы также разделяем проверенные веб -тексты на 3 группы (G1, G2, G3, см. Приложение E и Таблица III), чтобы отдельно обсудить, как может быть повлиять на их атаку, которая могла бы выглядеть с текущими и будущими камерами. Как указывалось в разделе III-B, преобразование между размером цифровой точки и высотой физической крышки зависит от конкретных настройки пользователя, таких как соотношение масштабирования браузера. Таким образом, значения высоты крышки в таблице III измеряются с помощью ноутбука Acer с настройками ОС и браузера по умолчанию в качестве тематического исследования.
Основываясь на результатах на рисунке 5, мы предполагаем, что наименьшие противники высоты крышки могут взглянуть, используя основные камеры 720p составляет 7-10 мм. Затем мы рассчитываем соответствующие ограничения с камерами 1080p и 4K с уравнением 3 и показываем их в теоретическом столбце таблицы III. Учитывая, что участники, скорее всего, будут использовать камеры 720p, мы выбираем размеры точек S1-S6 в таблице III для оценки.
B. Изучение пользователя
Пользовательское исследование (раздел VII-D) разработано следующим способом ответа: автор генерирует HTML-файлы с одним случайно выбранным заголовочным предложением, содержащим 7-9 слов [4] из широко используемого набора данных «миллион новостей» [46]. Только первая буква каждого слова заглавляется. Участники отображают страницу HTML в своих браузерах, когда они записаны, и другой автор выступает в качестве противника, пытаясь распознать слова из видео, содержащих размышления 20 участников, не зная содержимого HTML, используя те же методы, что и в разделе IV. Затем мы рассчитываем процент правильно распознаваемых слов.
Сбор данных.Каждому участнику было дано 6 HTML -файлов увеличения размеров точек от S1 до S6, как показано в таблице III. Обратите внимание, что 6 размеров указаны в размере точки в HTML, так что пользователь-зависимые факторы, такие как размер экрана и коэффициент масштабирования браузера, могут быть изучены (уравнение 1). Участники отображают каждый HTML -файл на своем собственном компьютерном дисплее в их привычных комнатах и ведут себя обычно, как на видеоконференциях. Мы позволяем участникам выбирать свое предпочтительное условие освещения окружающей среды, кроме как спрашивать их
Чтобы избежать других источников света, кроме экрана перед их лицом. Причина в том, что мы обнаружили, что близкий фронтальный источник света может серьезно уменьшить SNR света, который потенциально может использоваться в качестве физического смягчения против этой атаки, но не позволяет нам изучить влияние всех других факторов. Мы не сказали участникам оставаться неподвижными и позволить им вести себя нормально, как при просмотре экрана. Их веб -камеры записывают свое изображение в течение 30 секунд для каждого HTML.
Пропускная способность сети и качество видео являются артефактами платформ видеоконференций, которые быстро улучшаются [4] по сравнению с другими зависящими от пользователя физических факторов. Чтобы изучить современные и возможные будущие последствия платформ видеоконференций, мы записываем видео 20 участников как локально, так и отдаленно через Zoom. Наши эксперименты были сосредоточены на увеличении, поскольку это самая используемая платформа, а также предоставляет наиболее подробную статистику видео и сети.
Общие результаты признания противника.Результаты распознавания, достигнутые противником с локальными и удаленными записями, показаны на рисунке 8 (верхняя и нижняя соответственно). Два участника (4 и 14) не генерировали стеклянные отражения своих экранов в видеозаписях из-за проблемы вертикальных углов просмотра Out-Range, как предсказывалось в разделе III-B. Четыре участника (3, 6, 10, 11) дают 0% точности текстового распознавания из -за очень низкого света SNR.
С местными видеозаписи процент из 20 участников, которые подвергаются ненулевой точности признания против S6-S1, составляют 70%, 60%, 30%, 25%, 15%и 0%соответственно. Видео участников 7 и 17 с использованием камер 720p позволили противнику достичь точности 12,5% и 25% при распознавании S2. Видео участника 16 Использование камеры 480p позволило противнику достичь точности 37,5% при распознавании S3. Эти результаты приводят к прогнозируемым восприимчивым целям с камерами различных разрешений, как указано в пользовательском столбце Таблицы III, где веб-камеры 720p представляют угрозы для больших сети (3) и будущих 4K-камерах представляют угрозы различным текстам заголовка на популярных веб-сайтах (1 и 2). Как и ожидалось, этот результат хуже, чем теоретические ограничения в таблице, которые получены с данными по рецепту стекла в контролируемой лабораторной настройке (раздел IV). Наши наблюдения предполагают, что основные причины включают: (1) условия освещения в окружающей среде пользователей более разнообразны и менее выгодны для обзора экрана, чем лабораторная установка, генерируя отражения с худшим светом SNR. (2) Тексты в пользовательском исследовании в основном являются более низкими и, таким образом, имеют меньшие физические размеры, чем буквы верхнего часа, используемые в разделе IV. (3) Очищаемые по рецепту, используемые в разделе IV, имеют большее фокусное расстояние, чем стаканы среднего пользователя. (4) В пользовательском исследовании существуют более преднамеренные движения, что приводит к большему размытию движения.
Благодаря удаленным записям на основе масштабирования процент участников с нулевой точностью распознавания по сравнению с S6-S1, ухудшенной до 65%, 55%, 30%, 25%, 5%и 0%соответственно. Мы зарегистрировали пропускную способность и разрешение видео-сети, о которых сообщалось Zoom, как показано на рисунке 8. Корреляция между пропускной способностью увеличения, разрешением и их влиянием на качество видео согласуется с наблюдениями в разделе IV-C. Как правило, полосы пропускания менее 1500 кбит / с приводили к разрешениям 360p в течение большей части времени и уменьшали узнаваемый размер текста на 1 уровень. Видео Zoom 720p также вызвало деградацию в точности распознавания, но в основном держали узнаваемый размер текста до того же уровня, что и локальные записи, что указывает на те же прогнозы восприимчивых размеров текста и соответствующие цели киберпространства.
Помимо в основном используемой платформе Zoom, мы также приобрели удаленные записи участника 19 со Skype и Google Meet. Служба достиг лучших результатов с Skype, чем Zoom, распознавая S3 и S2 с точностью 89% и 25% соответственно, что, вероятно, связано с способностью Skype поддерживать качественные видеопотоки с полосой 1200 кбит / с. Веб-платформа Google Meet предоставила видео с самого низкого качества и позволила противнику достичь точности 22% при распознавании S4.
Основные причины.Чтобы выяснить доминирующие причины, позволяющие легче взглянуть на веб -камеру, анализируя корреляцию между результатами распознавания и различными факторами, мы превращаем результаты каждого участника (6 размеров) в единую оценку атаки, которая представляет собой исправленную взвешенную сумму точности распознавания шести протестированных размеров текста. На рисунке 9 (а) показаны оценки корреляции с 11 факторами, которые влияют на размер пикселя отражения (слева) и световой SNR (справа) соответственно, когда W = 1,5. Тип стекла включает в себя рецепт (15/20) и рецепт с BLB покрытиями (5/20). Физический размер текста и соотношение света с отражением и окружающей средой, выделенные в коробках, являются двумя составными коэффициентами. Короче говоря, размер физического текста представляет собой соотношение между фактическим физическим размером текстов, отображаемых на экране каждого участника, и значениями тематического исследования в таблице III, и рассчитывается уравнением 1 с другими необработанными факторами, такими как соотношение Zoom Браузера. Соотношение света с отражением и окружающей средой представляет собой, насколько сильна яркость экрана, сравнивая с интенсивностью света окружающей среды и рассчитывается путем разделителя светящейся яркости на свету окружающей среды. По сути, эти два составных фактора представляют собой прогноз нашей модели размера пикселей отражения и SNR света и обнаруживаются, что генерируют более высокие оценки корреляции, чем другие необработанные факторы, что подтверждает эффективность наших моделей. На рисунке 9 (B-D) дополнительно показывает совместное распределение балла атаки и три репрезентативных фактора. Из (b) видно, что расстояние в 40 мм с экраном, используемое при оценке раздела IV, примерно среднее значение значений участников, и расстояния этих участников на самом деле имеют очень слабую корреляцию с
Он легкость в виде атаки в веб -камере. Рисунок 9 (d) предполагает, что, когда коэффициент интенсивности ярко-окружающей среды с яркости экрана и охраны окружающей среды становится ниже, чем определенный порог, вероятность предотвращения заглядывающих противников очень высока, что может рассматриваться как временное смягчение.
Авторы:
(1) Ян Лонг, Электротехника и компьютерные науки, Университет Мичигана, Энн Арбор, США (yanlong@umich.edu);
(2) Чэнь Ян, Колледж электротехники, Университет Чжэцзян, Ханчжоу, Китай (yanchen@zju.edu.cn);
(3) Шилин Сяо, Колледж электротехники, Университет Чжэцзян, Ханчжоу, Китай (xshilin@zju.edu.cn);
(4) Шиван Прасад, Электротехника и компьютерная наука, Мичиганский университет, Энн Арбор, США (shprasad@umich.edu);
(5) Вениюан Сюй, Колледж электротехники, Университет Чжэцзян, Ханчжоу, Китай (wyxu@zju.edu.cn);
(6) Кевин Фу, электротехника и компьютерные науки, Мичиганский университет, Энн Арбор, США (kenfu@umich.edu).
Эта статья есть
[4] Однородные длины (например, все 8 слов) избегают, чтобы не допустить угадывания слов, зная, как долго предложения.
Оригинал