Зумные звонки, очки и случайный шпионаж

Зумные звонки, очки и случайный шпионаж

7 августа 2025 г.

Аннотация и I. Введение

II Модель и фон

Iii. Веб -камера заглядывает через очки

IV Познаваемость и факторы размышлений

V. Cyberspace Textula Target Lebrameibility

VI Признание веб -сайта

VII. Дискуссия

VIII. Связанная работа

IX. Заключение, подтверждение и ссылки

Приложение A: Информация о оборудовании

Приложение B: модель угла просмотра

Приложение C: Поведение платформы видеоконференций

Приложение D: Анализ искажений

Приложение E: Веб -текстовые цели

IV Познаваемость и факторы размышлений

В этом разделе мы оцениваем пределы узнаваемости отраженных текстов, улучшенных методом MFSR с учетом определенного набора веб -камеров, очков и выгодных условий окружающей среды. Затем мы исследуем влияние наиболее значимых факторов. Оценки в этом разделе выполняются в контролируемой лабораторной среде и служат основой для анализа в разделе V.

А. Экспериментальная установка

ОборудованиеПолем Мы собрали все данные с вышеупомянутым ноутбуком Acer в качестве устройства жертвы и другим ноутбуком Samsung [18] в качестве устройства противника. Два ноутбука были в лабораторной среде с сетевым соединением Wi -Fi. Пострадавший ноутбук был измерен как скорость загрузки в Интернете 246 Мбит / с и скорость загрузки 137 Мбит / с, в то время как для ноутбука противника составляли 144 Мбит / с и 133 Мбит / с соответственно. Мы использовали две пары очков, то есть пара очков BLB и рецептурных очков.

Сбор данных.Мы попросили человека носить очки и сесть перед ноутбуком жертвы. Расстояние стеклянного экрана было выбрано 40 см, что также было обнаружено близко к среднему расстоянию в пользовательском исследовании (см. Рисунок 9 (b)). Яркость экрана была на 100%. Чтобы оценить пределы распознавания, мы использовали интенсивность света окружающей среды 100 LUX для создания лучших отражений. Затем мы показали отдельные заглавные буквы (26 букв) на экране жертвы с различными высотами от 20 мм до 7 мм. У пострадавших и противника ноутбуков провели сеанс увеличения [21] с видеорезоляцией 1280 × 720. Для каждого отображения букв мы записали видео 3S изображений жертвы на ноутбуке противника. Затем мы использовали 8 последовательных кадров, начиная с 1s для

Fig. 5. The recognition accuracy of letters in different sizes with (a) the BLB glasses and (b) the prescription glasses. Although the pair of BLB glasses have higher reflectance than the prescription glasses, the prescription glasses enable reading smaller on-screen texts because of their smaller curvature leading to larger reflection pixel size. Note that the conclusion is device-specific and cannot be applied to general BLB-prescription glass comparison. Humans are found more capable of recognizing the reflected texts than SOTA OCR models.

Fig. 6. The human recognition accuracy of different letters with (a) the BLB glasses and (b) the prescription glasses. Letters such as “R” have been found the most difficult to read in the reflections while letters such as “C” and “U” have high recognizability. The difference is mostly due to the simplicity and symmetry in the letters’ structures which lead to smaller degradation of recognizability when the reflections are subject to distortions.

Реконструкция MFSR и сгенерировал одно соответствующее изображение для каждого видео. Мы сгенерировали 208 изображений для 2 очков с 4 различными размерами.

Оценка узнаваемости.Чтобы оценить узнаваемость реконструированных однобуквенных изображений и избежать потенциального смещения, введенного в результате предварительного знания авторов о размышлениях, мы приобрели точность распознавания путем (1), используя несколько предварительно обученных SOTA модели OCR, включая Google Tesseract и керас CRNN, и (2), проводящие (раздел VII-D) на Amazon Turk (AMT). Для исследования AMT мы собрали ответы от 25 краудсорсинговых работников для каждого реконструированного изображения и, таким образом, собрали 5200 ответов в общей сложности. Мы показали работникам все реконструированные изображения рандомизированным образом, не предоставляя им какой -либо информации о исходных буквах на экране. Мы попросили работников предоставить 3 лучших предположения единой буквы на каждом реконструированном изображении. Им разрешили ввести один и тот же ответ для нескольких догадок, если они чувствуют себя уверенно в догадке, или они не имеют ни малейшего понятия о том, чтобы сделать последующие предположения. Затем узнаваемость текстов на реконструированных изображениях представлена точностью распознавания, то есть правильно распознанным количеством букв по общему количеству букв в каждом случае.

Б. узнаваемость против размера и письма

На рисунке 5 показана точность распознавания с BLB и очками по рецепту соответственно с различными размерами букв. Точность AMT для каждого размера буквы рассчитывается путем включения всех 25 ответов для всех 26 букв, то есть с знаменателем 25 × 26 = 650. Мы выбрали 4 репрезентативных размера букв для каждой пары очков соответственно и показывают точность 1, 2 и 3 и 3. Мы также используем столбцы ошибок, чтобы показать стандартные отклонения. Модели SOTA OCR работали значительно хуже, чем работники AMT. Мы считаем, что основная причина заключается в том, что распределение данных в учебных наборах моделей сильно отличается от фактических данных в мочении веб -камеры. После тестирования различных данных изображения на моделях мы обнаружили, что две основные причины их плохой производительности являются (1) значительно более низкие контрастные, (2) окклюзии, вызванные недостаточными фотонами. Удивительно, но мы также обнаружили, что модели, чувствительные к тому, как мы обрезаем изображения, что предполагает, что функции сверточного уровня и потенциальные схемы увеличения данных, используемые этими моделями, не очень хорошо справляются с распределением наших данных. Мы думаем, что будущие исследователи могут потенциально использовать эти предварительные модели и собрать свой собственный набор данных для мочи в веб-камере, чтобы точно настроить веса модели, чтобы лучше адаптировать модели распознавания машинного обучения к этому сценарию.

Окольни, отпускаемые по рецепту, обычно дают лучшие результаты для атаки для мочания веб -камеры, показывая, что 10 -мм тексты могут быть распознаны на реконструированных изображениях с более чем 75% точностью. Несмотря на то, что точность распознавания со очками BLB также не так хороша, как рецептурные очки, также достаточно высока, чтобы поддержать эффективные атаки для обзора против текстов 10-20 мм. Несмотря на лучшие отражающие характеристики очков BLB, очки по рецепту по -прежнему дают лучшие результаты из -за их меньшей кривизны, подчеркивая риски атаки мочаемости даже без высоких отражающих очков.

Интуитивно, различные буквы в алфавите будут распознаваться с разными уровнями трудностей из -за их структурных характеристик (см. Рисунок 6). Например, буквы «r» и «b» были найдены трудным для распознавания в обоих случаях двух пар очков. С другой стороны, такие буквы, как «C», «u», «i» и «o», в целом имеют наибольшую узнаваемость во всех размерах, которые, как мы подозреваем, связано с их простыми или очень симметричными структурами, которые предотвращают узнаваемость таких букв слишком серьезно, когда тексты были подавлены. Кроме того, мы обнаружили, что буквы, имеющие сходные структуры, более легко путаются друг с другом в распознавании. Например, «J» и «L» в основном признаются «я», когда размер буквы становится небольшим, потому что искажения к нижней части «J» и «L» делают их такими же похожими на «я» на изображениях отражения.

C. Влияние сети

Платформы для видеоконференций, такие как Zoom, вызывают различные уровни искажений на изображениях посредством кодирования и декодирования видео при различных сетевых полосах пропускной способности. Чтобы проанализировать воздействие, мы сравнили качество реконструированных изображений под различными сетевыми полосами пропускной способности, когда видео записывается местным устройством жертвы, не проходя через увеличение. Визуальная демонстрация эффекта показана на рисунке 17, который количественно определяется с показателями CWSSIM и показана на рисунке 7 (а). Мы обнаружили, что когда пропускная способность загрузки превышает 10 Мбит / с, качество реконструированных изображений обычно остается прежним и находится близко к местному и реконструированным изображениям с незначительной степенью добавленных искажений. Пропускная способность загрузки меньше 10 Мбит / с начинает подорвать реконструированное качество изображения по сравнению с масштабированием. Когда полоса пропускания меньше 1000 кпб, буквы трудно распознать. Это почти неузнаваемо с пропускной способностью меньше 500 кбит / с. Когда пропускная способность была больше 1500 кбит / с, Zoom, как правило, смог поддерживать видео разрешения 720p с частотой кадров, около 30 кадров в секунду (Приложение C).

D. Физические факторы

Познавление отражений является очень сложной многовариантной функцией во многих физических факторах. Мы классифицируем факторы на 2 группы, а именно те, которые в основном влияют на размер пикселя отражения (раздел III-B) и те, которые влияют на свет SNR. Комплексное количественное моделирование светового SNR очень сложно из -за необходимости точных моделей датчиков визуализации. Тем не менее, мы предоставляем качественный анализ и количественно определяем репрезентативные случаи путем расчета изменений в оценках CWSSIM (рисунок 7).

В свете SNR часть сигнала происходит от света, исходящего от экрана, отражаемого очками, а затем захватывается датчиками изображения, соответствующей области экрана. Другой свет, захваченный датчиками в этой области, может рассматриваться как шум. Противостоятельно, более отраженный свет не всегда приводит к более высокой узнаваемости отражения, как мы обсудим дальше. На рисунке 7 (B-E) показаны факторы, которые могут изменить световой SNR наиболее значительно. (C-E) также проверяют, как автоматическое воздействие и ручное (фиксированное) экспозиция могут повлиять на световые отношения SNRRecognability неожиданно разными способами, используя встроенную веб-камеру ноутбука и настраиваемую Nikon Z7 соответственно.

Текст цвета контраст.Различные цвета текстов могут повлиять на узнаваемость отражения, потому что тексты и цвета экрана создают определенный контраст. Мы обнаружили, что Chroma имеет меньшие эффекты, чем Luma, и показывает, как Luma влияет на качество отражения на рисунке 7 (b) (визуализация на рисунке 17 (b)), используя абсолютную разницу в значениях RGB текста серого и фоновых цветов, чтобы представлять контраст. Как и ожидалось, более низкий контраст (меньшая разница RGB) подрывает узнаваемость отражения.

Фоновая отражательная способность.Отражательная способность лица определяется субфакторами, такими как цвет кожи. Мы протестировали различный фоновый отражатель, вставая на внутреннюю сторону очков бумагами различных цветов серого масштаба, которые имеют одинаковые значения для RGB. Когда фон имеет более высокую отражательную способность (большие значения RGB), больше света из окружающей среды, а также экрана будет отражаться, увеличивая часть шума света SNR и, таким образом, подрывает узнаваемость отражений, как показано на рисунке 7 (c) (визуализация на рисунке 17 (c)).

Интенсивность света среды.Снижение интенсивности света окружающей среды вызывает меньшую степень шума и, таким образом, увеличивает свет SNR. Это увеличение, однако, не обязательно приводит к лучшему узнаваемости в случае веб-камеров, которые часто имеют управление автоматическим эксплуатацией, чтобы регулировать общую яркость видео, которые они снимают. Когда общая среда слишком темная, прошивка веб -камеры автоматически увеличивает время экспозиции, пытаясь компенсировать темную среду. Это увеличение времени воздействия может вызвать чрезмерное воздействие для отраженного содержимого на очках, которые могут иметь гораздо более высокую интенсивность света, чем окружающая среда, что приводит к меньшему контрасту и, следовательно, более трудным для чтения изображений. Такое чрезмерное воздействие встречается в видео нескольких участников в пользовательском исследовании (раздел V-B). С другой стороны, распознаваемость монотонно увеличивается в случае камер ручного воздействия, таких как Nikon Z7 в ручном режиме. Рисунок 7 (d) (визуализация на рисунке 17 (d)) показывает различное поведение автоматического и ручного воздействия.

Яркость экранаПолем Яркость экрана является противоположностью интенсивности света окружающей среды с точки зрения его влияния на узнаваемость отражения. Когда экран становится ярче, сигнальная часть в свете SNR увеличивается и может привести к более читаемым отражениям для камер ручного экспозиции. Тем не менее, автоматическое воздействие большинства веб-камеров снова может негативно повлиять на узнаваемость. В частности, если экран становится слишком ярким по сравнению с условием освещения окружающей среды, веб -камеры часто регулируют свое время воздействия и ISO на основе доминирующего состояния освещения окружающей среды и, таким образом, вызовут чрезмерное воздействие на отражения экрана. Рисунок 7 (e) (визуализация на рисунке 17 (e)) показывает эффекты.

Краткое содержаниеПолем Результаты показывают, что изменения в физических условиях могут резко изменить фактические пределы атаки. Тот факт, что узнаваемость отражения не меняется монотонно с некоторыми факторами, такими как интенсивность света окружающей среды и яркость экрана, еще больше бросает вызов атаке, что затрудняет прогнозирование возможных результатов в неконтролируемых условиях.

E. Объектив глаз

Разница в точности распознавания между парой BLB и рецептурными очками (рис. 5) предполагает параметры различных линз очков, влияя на производительность мочания веб -камеры. Чтобы изучить влияние, мы проанализировали 16 пар очков, осматривая корреляцию между их

Fig. 7. Effects of impact factors evaluated by CWSSIM scores. The original score numbers are displayed along with the legend at the bottom, and we plot the ratio between each score and the highest score in each case as a percentage. Visualizations of the effects can be found in the appendix.

Качество отражения количественно определено по оценкам CWSSIM и несколькими факторами линз. Оценки CWSSIM приобретаются с 16 очками, когда все остальные факторы сохраняются одинаковыми.

Результаты предполагают фокусное расстояние линз, которое определяет размер пикселей отражений (уравнение 3), оказывает самое сильное влияние на отражения с оценкой корреляции 0,56. Минимальное, среднее и максимальное фокусное расстояние 16 пар очков составляет 10, 268 и 110 см соответственно. С оценкой корреляции 0,42, вторым самым сильным фактором является прочность на рецепт (мощность линзы), поскольку мощность линзы обычно имеет положительную корреляцию с фокусным расстоянием после конвенций с дизайном (см. Приложение A для объяснения). Условия отражения линзы и поверхностного покрытия, которые в основном влияют на отражение света SNR, дает показатели корреляции 0,32 и 0,31 соответственно. Мы эмпирически определили и добавили коэффициент условия покрытия линз, который измеряет, сколько покрытия линз изношены с более высокими значениями, представляющими более неповрежденное покрытие. Мотивацией является наше наблюдение, что повреждение в покрытии линзы уменьшает узнаваемость отражений (см. Рисунок 11). Мы также оценили спектр отражения линзы путем расчета отношения между значениями RGB отражений на изображении, но обнаружили только оценки корреляции ниже 0,15. Это говорит о том, что тип стекла (например, BLB или не BLB) не оказывает сильного влияния на качество отражения. Наконец, мы ожидаем, что параметры, проанализированные выше, имеют определенные отношения с объективом и материалами для покрытия, которые требуют специализированного оптического оборудования для измерения и определения.

Авторы:

(1) Ян Лонг, Электротехника и компьютерные науки, Университет Мичигана, Энн Арбор, США (yanlong@umich.edu);

(2) Чэнь Ян, Колледж электротехники, Университет Чжэцзян, Ханчжоу, Китай (yanchen@zju.edu.cn);

(3) Шилин Сяо, Колледж электротехники, Университет Чжэцзян, Ханчжоу, Китай (xshilin@zju.edu.cn);

(4) Шиван Прасад, Электротехника и компьютерная наука, Мичиганский университет, Энн Арбор, США (shprasad@umich.edu);

(5) Вениюан Сюй, Колледж электротехники, Университет Чжэцзян, Ханчжоу, Китай (wyxu@zju.edu.cn);

(6) Кевин Фу, электротехника и компьютерные науки, Мичиганский университет, Энн Арбор, США (kenfu@umich.edu).


Эта статья естьДоступно на Arxivпод атрибуцией-некоммерческими Noderivs 4.0 Международная лицензия.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE