cryptography apple science internet-privacy explainer layman-guide privacy-preserving-technology csam-detection how-does-csam-work

(Поздний) обзор технологии, стоящей за обнаружением Apple CSAM

3 июля 2025 г.

Более конкретно известный как протокол FTPSI-AD (нечеткий порог частного набора с соответствующими данными).

Редактировать 2021/09/04: Очевидно, когда я откладывал, написав эту статью, что Apple согласилась отложить развертывание системы.

Редактировать 2023/09/20: я откладывал достаточно долго, чтобы все это было отменено.https://appleinsider.com/articles/23/08/31/apple-provides-detailed-reasoning-behind-abandoning-iphone-csam обнаружение

Отказ от ответственности: Как следует из названия, это не криптовой анализ криптографии Apple CSAM. Я не криптограф и не криптаналитик.

На самом деле у меня очень мало официальных тренировок в криптографии и криптографических методах - примерно так же, как и следовало ожидать от кого -то, кто боролся с предприятием PKI, провел некоторое профессиональное тестирование на проникновение и пытался, но не смог завершитьКриптография я от Дэна Бонета(Это хорошо, проверьте это).

Это не что иное, как понимание моего непрофессионала и последующее объяснение того, что мне удалось блеск из официальной и неофициальной документации (все приведенные источники).

Термин «крипто», где используется в этой статье исключительно для обозначения исходного значения: криптография -_-

Почему это даже «вещь»?

Несмотря на все споры и Hoo-Ha, окружающие объявление сканирования Apple CSAM, мне еще предстоит увидеть базовый объяснение о том, как на самом деле работает крипто-магия, сохранение конфиденциальности. Честно говоря, я даже не думал о сложностях построения такой системы, пока мой брат не связал меня с следующим твитом.

«LOL», я признал, «довольно проницательный пост… как все это будет работать?»

Как и миллионы пользователей технологий каждый день, я невежественно застрял из -за деталей, не давая этой технологии вторую мысль.

Игнорирование семантики формулировки, используемой в твиттере на секунду - это совершенно действительный вопрос.Как Apple позволит «расшифровать» определенные изображения при сохранении конфиденциальности и безопасности другого пользовательского контента?

Боковая панель: для тех из вас, кто на данный момент смотрит на это и подумает: «Тот факт, что его зашифровано, подразумевает, что его можно расшифровать - в чем дело?» Не отчаивайтесь. Автор твита предполагает, что вы разделяете их понимание ожидаемых контролей конфиденциальности и безопасности, встроенных в ваш iPhone и подключенные сервисы. Позвольте мне попытаться объяснить.

Предполагается, что изображения, которые вы храните в своей учетной записи iCloud, зашифрованы таким образом, что Apple, несмотря на то, что они обладают всеми этими изображениями, на самом деле не видят их содержимое, поскольку они зашифрованы на грани с ключами, которые являются частными для этого устройства и/или учетной записи (я не уверен, что это действительно верно, и что Apple когда-либо предоставляется, что гарантирует, что это, кажется, является предположением, что это то, что в том, что в том, что в том, что в том, что в том, что в том, что в том, что в том, что в том, что в том, что в том, что в том, что в том, что в том, что в том, что в том, что в том, что в том, что в том, что.https://news.ycombinator.com/item?id=28300035

Перефразируя: «Вы не можете утверждать, что мои вещи являются частными и зашифрованы… пока это не так. Если вы сможете расшифровать его в любой момент без моего ввода или согласия, это означает, что он никогда не был должным образом зашифрован и под моим исключительным контролем в первую очередь».

Фактически, основной вопрос хорошо обобщен в первом предложенииэта статьяОпубликовано Apple:

Система Apple PSI решает очень сложную проблему обнаружения фотографий с содержанием CSAM, сохраняя при этом содержимое всех не CSAM-фотографий зашифрованными и частными.

Мой первоначальный ответ на моего брата был диким предположением, которое в основном сводилось к этому:

«Здесь не так много деталей, и нам придется сделать заявления за чистую монету, но есть причудливые криптомагические способы шифрования вещей, где более одного ключа может расшифровать его.

Я полагаю, что на телефоне работает алгоритм машинного обучения, который классифицирует эти изображения, в которых они обязательно находятся в открытом виде (или расшифрованном состоянии), помечают их на основе какой -то причудливой эвристики, а затем шифруют ее (копию или тот же) под другим ключом, который управляет Apple и может просто расшифровать серверную сторону »».

О, был ли я неправ - это гораздо более вовлеченои намного круче, чем я мог бы даже себе представитьПолем Apple действительно изо всех сил старалась сохранить конфиденциальность пользователей. К сожалению, это не идеальная система - ни одна - но больше об этом позже.

Это хорошее время, чтобы отметить, что я буду ясно комментироватьлюбойНетехнические аспекты системы.

Этика и мораль такой системы, включая аргумент «скользкий склон», обсуждались ad-nauseam (по всем правильным причинам).

Я не чувствую, что смогу значительно внести свой вклад в эту дискуссию дальше, и при этом я не хочу в этой статье. Я хочу поддерживать невыразимый и чистый фокус на прохладной технологии, надев шоры морального невежества. Однако эти шоры являются временными, и никакие технологии с таким потенциальным воздействием не могут быть оценены только в изоляции - столько, сколько мы хотели бы игнорировать ее - существует неотъемлемая связь между прохладными технологиями с возможностями влиять на общество и нашим моральным обязательством, чтобы обеспечить его правильную вещь, когда это злоупотребляет им.

Обычно на данный момент (на момент написания статьи) я ходил на поиски ясности, но был совершенно разочарован, когда я ничего не мог найти (по крайней мере, не что -то простое смертное, как я мог понять). Мой обычный ресурс для предоставления красноречивого, хотя и немного надуманного, объяснения сложных систем@sggrcБыл также, к сожалению, молчал по этому поводу. К его чести он упоминал вЭпизод 831 безопасности сейчасТо, что это потенциально область, в которую он погрузился позже - на момент написания этого поста я еще не видел такого глубокого погружения.

Итак, мое глубокое погружение началось ...

Некоторая преамбула

Во избежание сомнения.Безопасность связи, anфункция на граниспроектирован дляПредупреждайте детейКогда ониОтправлять или получать половой явный контент по сообщениям и воздушной панели,Система объявила в то же время, что, по -видимому, вызвало путаницу в некоторых кругах.

Мой основной источник информации для этой статьи - этоЭтот технический обзор, выпущенный Apple

Но я также сильно полагался наэтотВэтотВэтотиэтотанализ поСара Джейми Льюисзаopenprivacy.caЧтобы уточнить некоторые вещи, которые технический анализ ослабляет.

Наконец, я также назвалэтотВэтотВэтотиэто (модель угроз)Документ, опубликованный Apple для некоторых разъяснений и перекрестной проверки.

Хотя эта система печально известна для «сканирования на стороне клиента» - источника больших противоречий - она на самом деле весьма зависит от операций на стороне сервера. Некоторые компоненты и процессы работают только на клиенте, а некоторые другие только на сервере. Это разделение проблем довольно преднамеренное и значительное для проектирования общей системы. Если клиент или сервер не выполняют свой бит (намеренно или случайно), вся система разрушается. Я отмечаю это, потому что взаимозависимость клиента и сервера (и связанных с ними рабочих нагрузок) должна храниться в глубине вашего ума, когда вы продолжаете читать эту статью.

Зачем этот пост вообще нужен?

Когда я работал над документом «Технический обзор Apple», слишком часто я обнаруживал, что восклицал: «Но почему…?» или «Но как…?».

Соответственно эти вопросы могут быть переведены в следующие коренные причины:

"Но почему…!?" = «Почему ты делаешь это?» или «Почему ты делаешь это таким образом?» - Как правило, это указывало на то, что я пропустил или неправильно понял ключевую часть контекста из модели угроз.
«Но как….!?» = «Как это возможно?» или «Как это вообще работает?» - Как правило, это указывало на то, что у меня не было знаний или неправильно понял что -то фундаментальное в отношении основной технологии (в основном криптография)

В следующих разделах я буду перейти к компоненту по компоненту и разрушаю то, как каждый работает в такой же структуре, что и документ технического обзора, разница в том, что я постараюсь объяснить вещи более подробно, где авторы предполагали, что читатель знал модель угроз или где они внесли некоторые технические детали для краткости, поскольку это связано с криптографией.

Я надеюсь, что этот дополнительный контекст и «упрощение» проблемы помогут другим, как я, лучше понять систему. Давайте начнем с самого начала ...

Neuralhash

Не могу говорить о Neuralhash, не занидя сначала, что такое стандартный болотный хэш. Я полагаю, что технически это называется криптографической хэш -функцией, а у хороших есть несколько ключевых свойств, которые мы должны быстро коснуться для контекста:

Пропустите этот раздел на «Так что же такое Neuralhash?» Если вы знаете свои SHA от вашего MD

Они естьдетерминированные функции(Тот же вход приводит к одному и тому же выводу - всегда)
Они естьПо своей природе информационная потеря(Выход имеет статическую длину независимо от входа, который также подразумевает, что выход не может быть изменен, чтобы получить исходный вход)
Они естьстойкий столкновение(Вероятность 2 или более разных входов, генерирующих один и тот же выход, должна быть статистически незначительной) действительно зависит от валяки использования.
Они естьчувствительный/хрупкий(Даже, казалось бы, незначительное изменение в входе должно привести к значительной разнице в выводе) - технически эта последняя - это просто расширение 1 -го и 3 -го баллов, но это стоит, вызывая его.

Если вы рассматриваете эти свойства, легко понять, почему их часто называют подписями или отпечатками пальцев. Они становятся уникальным представлением ввода, не раскрывая то, что это был вход.

Так зачем хеши в первую очередь? Как отмечено выше «отпечатка пальца», делает эти вещи отличным механизмом, чтобы точно сравнивать две вещи, не зная точных свойств каждого. В качестве аналогии мы можем использовать человеческие отпечатки пальцев - учитывая, что у вас есть два отпечатка пальцев, поднятые из разных мест (и мы предполагаем, что ни один два человека не имеют одинаковых отпечатков пальцев), мы можем сравнить отпечаток пальца, чтобы увидеть, соответствуют ли они и разумно предположить, что один и тот же человек сделал то, что не зная ничего о человеке (их имя, высота, цвет глаз, интересы и т. Д.).

Тогда это является вариантом использования ключей для криптографического хэша, и причина, по которой они являются фактическим решением для хранения паролей, где, например, поставщик услуг должен знать, что вы предоставили правильный пароль в логине, фактически не видя или сохранить свой пароль.

Нейраль -хеш тогда - криптографический хэш? Ну ... нет. Похоже, что Neuralhash имеет только одно свойство с криптографическим хэшем в том смысле, что это по своей природе информационная потеря - вход ввода уменьшается до вывода фиксированной длины.

АNeuralhashгораздо «нечеткий» и на самом деле называется нечетким хэшем, поскольку алгоритм не является строго детерминированным. Два разных входа могут, и, что важно по проекту, иметь возможность создавать один и тот же семантический результат. На данный момент не так много подробностей о внутренней работе Neuralhash (это немного черный ящик), но некоторые исследователи уже обратно спроектировали алгоритм и удалось создавать хэш-столкновения (1-е предварительное изображение и 2-е предварительное изображение), что по сути означает, что кто-то может искусственно создавать изображения из выбора того, что соответствует этому невралхаш). В основном нравится сказать, что вы можете выбрать свои собственные отпечатки пальцев в соответствии с тем, что у конкретной цели.

Neuralhash, по дизайну, является типом воспринимаемого хэша, а нечеткая его присуще имени. Пока изображения воспринимают то же самое, они должны производить тот же неврал (отпечаток пальца). Это ключевое свойство дизайна, потому что вариант использования здесь состоит в том, чтобы не иметь незначительных изменений изображения (например, изменение цвета одного пикселя или даже оценка цвета всего изображения), чтобы привести к несоответствию, поскольку это сделало бы тривиальным скрыть CSAM от обнаружения.

Apple иллюстрирует это намерение ясно в их техническом обзоре

Если бы вы генерировали криптографический хеш по этим 3 изображениям, все отпечатки пальцев были бы совершенно разными.

Это нечеткое решение является решением, но также представляет новую проблему - она нечеткая - и вещи, которые семантически отличаются, могут быть обнаружены как одно и то же изображение. Для получения дополнительной информации по этим вопросам обратитесь к следующим двум замечательным статьям, в которых дается более подробный обзор проблемы с хэши восприятия в этом контексте:

Проблема с хэши восприятия

Neuralhash, семантика, столкновения и вы (или когда кошка - собака?)

Затем мы переходим к…

Ослепленная база данных хеш

Так в чем же дело с «базой данных слепых хэши»? Зачем проходить всю эту криптографическую акробатику, а не просто, вы знаете, распределяя необратимые хэши?

Давайте немного вернемся. Весь смысл здесь состоит в том, чтобы выяснить, пытается ли кто -то загрузитьизвестныйCSAM в iCloud, фактически не глядя на их фотографии, потому что, очевидно, уединение имеет значение. Кроме того, Apple не хочет распространять CSAM или Neuralhashes изображений CSAM, которые могут пропустить наличие конкретного изображения в базе данных (даже если у кого -то было подобное изображение).

Таким образом, слепой хэшированная база данных представляет собой базу данных Neuralhashes известных изображений CSAM. Эти хэши генерируются из изображений CSAM, о которых уже знают организации по безопасности детей (например, NCMEC в США). Ключевым моментом является то, что Apple не создает эту базу данных самостоятельно, потому что им не разрешено иметь эти изображения в первую очередь. Вместо этого они полагаются на доверенные организации по безопасности детей вразные страныотправить в их изображение отпечатки пальцев. Apple сохраняет только те, которые появляются вПо крайней мере, в двух разных странах списка, просто чтобы убедиться, что никто не скользит что -то тенистого.

Но вот умный бит: перед отправкой этой хэш -базы данных пользовательским устройствам Apple «жалюзи» с использованием криптографических методов. Процесс ослепления - это не шифрование в традиционном смысле, но этоделаетКриптографически скрывает хэши CSAM с использованием эллиптического скалярного умножения с секретом, известным только Apple. Это обеспечивает одностороннее преобразование, которое ведет себя как шифрование для целей конфиденциальности, но без обратимого шага дешифрования.

Это связано сЭллиптическая кривая дискретная задача логарифма (ECDLP), который лежит в основе безопасности криптографии эллиптической кривой.

Итак, теперь у нас есть коллекция визуальных производных или проверенные изображения CSAM, которые получатель не может обратить вспять или вывести исходное изображение (даже если у владения похожими изображениями). Круто, так что это означает, основываясь на сравнении (подробнее об этом в ближайшее время), ваш телефон может генерировать матч, но все еще не знаетчтосоответствует илипочему.

Который хорошо зарегистрируется ...

Частный набор пересечения (PSI)

Credit: intersection-of-two-sets.png Кажется довольно самоуверенным, верно? Apple может видеть изображения только на пересечении наборов A и B. A, например, на фотографиях, которые у вас есть на вашем устройстве, а B - фотографии CSAM вОслепленная база данных хешПолем

Neuralhash (более конкретно сравнение 2 neuralhash) является определяющим фактором A_i _ == b_i_. Если результат функции NeuralHash (FNH), рассчитанного по изображению из A_I_, и изображения из b_i_ одинаковы (fnh (a_i_) == fnh (b_i_)), тогда эти два изображения считаются совпадением восприятия.

Схема частного набора пересечения (PSI) лежит в основе конфиденциальности «сохранения» предложенной системы. Это механизм, с помощью которого Apple может гарантировать, что они учитываются всего лишь технически необходимым в отношении пользовательского контента (учитывая требование мониторинга CSAM и необходимости видетьнекоторыйсодержание) и ничего более. Это служит для защиты как пользователя, так и в своей конфиденциальности и дает Apple удобное утверждение о невежестве - «извините, мы не можем дать вам эти пользовательские изображения, ФБР. Мы не можем их расшифровать».

Не совсем ясно, почему это необходимо, поскольку не кажется, что Apple на самом деле делает сквозное шифрование (E2EE) изображений, хранящихся на iCloud. Это означает, что так же круто и новое, как и механизм PSI, кажется ... ну ... Если нет e2ee, Apple потенциально может увидеть все изображения, загруженные в iCloud - не имеет смысла, что они введут в себя запутанный механизм конфиденциальности, который сразу же подорван из -за отсутствия E2EE. Единственное разумное предположение, которое можно извлечь из этого, заключается в том, что существуют потенциальные планы на будущее, чтобы иметь e2ee на iCloud - но если это так, что Apple подозрительно молчит о таких планах.

Как это достигается?

Here is picture I drew late at night to explain PSI to myself but that will probably only serve to confuse you the reader - I apologize.

Lets разбивает мою уродливую картину шаг за шагом, чтобы сделать жизнь немного проще.

Клиентская сторона (устройство пользователя)

Получить слепое хеш -базу данных CSAM
Устройство получает слепые (криптографически трансформированные) хэш -таблицу известных Neuralhashes CSAM. Эти хэши получены из хэшей восприятия (Neuralhashes), представленных как минимум двумя независимыми организациями по безопасности детей из разных юрисдикций. Хэши ослеплены с использованием криптографии эллиптической кривой и вставлены в детерминированные положения в таблице на основе исходного (неослабного) хэша.
Пользователь выбирает или загружает фото
Когда пользователь делает или загружает фотографию на фотографии iCloud, устройство вычисляет Neuralhash и визуальную производную (сохраняющая конфиденциальность версии изображения с низким разрешением).
Выполнить поиск протокола PSI
Neuralhash используется для определения детерминированной позиции в слепой хеш -таблице. Устройство приносит слепое хэш CSAM на этой позиции, но не может интерпретировать или не пугать его. Используя эти данные и Neuralhash, он вычисляет криптографический заголовок.
Построить ваучер на безопасность
Устройство создает двухслойный зашифрованный ваучер на безопасность:

Внутренний слой шифрует Neuralhash и визуальную производную, используя секретный ключ, известный только устройству.
Внешний слой включает в себя секретную долю внутреннего ключа и шифрует как этот общий, так и зашифрованные данные изображения, используя полученный ключ, рассчитанную из слепого хэш -заголовка и криптографического заголовка.
Этот процесс гарантирует, что только в том случае, если NeuralHash соответствует записи в базе данных хэша CSAM, сервер впоследствии сможет расшифровать внешний уровень.

Добавить синтетические ваучеры (подробнее об этом позже)
Устройство может генерировать ваучеры на синтетические совпадения (поддельные совпадения), которые напоминают реальные и регистрируются как совпадения на сервере. Они неотличимы от реальных матчей и служат для того, чтобы скрыть фактическое количество совпадений до достижения порога.
Загрузите в iCloud
Фотография и связанный с ним ваучер на безопасность загружаются в Apple Photos Service.

Серверная сторона (Apple iCloud)

Получить ваучеры на безопасность
Сервер получает и хранит изображения и их ваучеры на безопасность. Он не знает, какие реальные совпадения или синтетические совпадения и не могут расшифровать какую -либо часть ваучера на этом этапе.
Попытка на основе PSI внешнее расшифрование
Используя криптографический заголовок из каждого ваучера и его собственный ослепительный секрет, сервер пытается расшифровать внешний слой ваучера. Если ваучер соответствует реальному совпадению (то есть изображение известно CSAM), дешифрование раскрывает секретную долю и зашифрованный внутренний слой (Neuralhash и визуальная производная). Для не матчей дешифрование терпит неудачу, ничего не раскрывая.
Проверьте порог соответствия (подробнее об этом позже)
Если количество успешных внешних дешифрований (то есть совпадает CSAM) достигает или превышает предопределенный порог (например, 30), сервер использует собранные секретные акции для реконструкции ключа внутреннего шифрования.
Расшифровывать внутренний слой
Реконструированный ключ используется для расшифровки внутреннего слоя каждого соответствующего ваучера по безопасности, показывая Neuralhash и визуальную производную для подходящих изображений.
Запустить вторичную проверку хэша
Сервер может применить второй, независимый хэш восприятия, чтобы уменьшить возможность ложных срабатываний, вызванных состязательными манипуляциями.
Человеческий обзор
Визуальные производные соответствующих изображений рассматриваются обученными сотрудниками Apple. Если изображения подтверждаются как CSAM, Apple отключает учетную запись пользователя и подает отчет в соответствующую организацию по защите детей (например, NCMEC в Соединенных Штатах).
Если порог не выполнен
Сервер не может реконструировать ключ дешифрования, а ваучеры по безопасности остаются зашифрованными. Apple не получает знаний о том, были ли какие -либо изображения, подходящие или сколько было близко.

Я надеюсь, что текст был немного более понятным, чем мои каракули. Давайте больше на…

Для меня концепция, в принципе, было легко в Grok, но практической реализации полная загадка и технический обзор не сделали много для объяснения какой -либо криптографии, которая лежит в основе этого механизма. Другие документы сделали, но это было ничто, что можно было истолковать и понято таким простым смертным, как я.

Это был, наверное, один из моих самых больших »Но как !!!!?Моменты.

Вернуться к основной концепции: учитывая совокупное количество вещейХнад порогомТ, вы можете достичь результатаОкомбинируяX1, x2,… XT+1Полем Или более конкретно: учитывая, что у меня есть 7 (t) маленьких скал (x), я могу объединить их новым способом построить большую «камень» с достаточной массой, чтобы быть брошенным прямо через окно «пуленепробиваемого» киберзатора (O).

В случае конструкции по обмену порога яблока, которая переводится на: с учетом 30 (t) или болееСекретные осколки (x),Я могу найти секрет, который позволяет мне получить ключ, который позволяет мне расшифровать подмножество идентифицированных текстов шифров (фото визуальных производных) (О)

Просто, верно?

Ну нет. Потому что, если у вас есть опасный уровень (или лишь немного) знаний о криптографии, как и я, вы сразу же узнаете, что никогда не будет достаточно, чтобы иметь часть ключа (симметричного или нет), чтобы обеспечить дешифрование текста шифра, например, Даже если у вас есть 95% ключевого материала частного ключа RSA, это не позволяет расшифровать текст шифра, зашифрованный под связанным открытым ключом. Вам нужно все или бюст. Точно так же для симметричных ключей, используемых для AES, например, этого никогда не бывает достаточно, чтобы иметь только часть ключа.

Признано, что с учетом того, что он имеет значительную часть ключа, технически это возможно для того, чтобы придумать остальную часть ключа, но это не аргумент, и Apple не является грубым, заставляющим части ключей расшифровать тексты шифров.

Это затем приведет нас к следующему логическому вопросу. Предполагая самую основную настройку, в которой у нас есть симметричный ключ AES, который разделен на y -числоСекретные осколкии случайно распределена среди изображенияваучеры на безопасность,Насколько вероятно получитьправильныйT+1 отличаетсяСекретные осколки(Чтобы иметь возможность реконструировать полный симметричный ключ AES), учитывая случайное распределение сопоставленных изображений T+1? Не выполняя математику, я могу сказать вам, что это очень маловероятно и ясно, как эта система будет функционировать.

Затем ответ был намного более полезным, когда мне наконец удалось отследить его. Это называется

Shamir Secret Sharing и математическая конструкция, которая позволяет он называется полиномиальной интерполяцией и былауже предложено в 1979 годуНе кто иной, как сам мистер А. Шамир.

Я не могу объяснить алгебру (с любым контиситоном) за этим, кроме мистера Шамира, поэтому для тех из вас так склонны:

Для остальных из нас это сводится к: учитывая, что у вас достаточно (t - пороговых) точек (x - секретные осколки) на плоскости, вы можете получить полином и найти конкретную ранее неизвестную точку (O - поиск секрета) на графике.

Я нашелЭта статьяОчень полезно, не только для понимания проблемного пространства, но и эволюции потенциального решения с хорошим примером полиномиальной интерполяции.

Наконец, вы можете попробовать это на практике в своем браузерездесь(Super Cool) - Этот сайт также ссылается на другие очень крутые ресурсы и видео (источник изображения выше).

Мы оставим это в то же время - есть способ поставить секреты таким образом, чтобы для реконструкции секрета (ключ) необходимы только определенное подмножество осколков.

Я Суэр Волдеморт также фанат тайного шардинга.

Так почему Apple беспокоилась об этом механизме?

Самое простое объяснение состоит в том, что они ожидают, что некоторые ложные положительные совпадения будут происходить с использованием Neuralhash (как обсуждалось выше), и, имея порог на месте, они могут защитить себя (или кого они контракты с вручную проверку матчей) от арбитрального получения способности депроектировать изображения, которые возникают в результате единых ложноположительных совпадений.

Похоже, они предполагают, что количество совпадений выше 30 (см. Их оправдание для числа здесь), состоящее из всех ложных срабатываний, статистически не произойдет. Это по своей сути также означает, что они считают несколько совпадений ниже 30, которые являются не значимыми с точки зрения возможности обнаружения.

Таким образом, это означает, что Apple может когда -либо реконструировать ключ, чтобы иметь возможность расшифровать безопасности безопасности, которые сопровождают загруженные изображения, если в общей сложности 30 или более изображений были совпадения (ложные положительные или нет). Кроме того, когда протокол накапливается достаточноСекретные осколкиЧтобы получить ключ, этот ключ позволит им только расшифровать сопоставленные изображения и ничего более - это не «ключ скелета» для всех загруженных вещей.

С момента написания этого я использовал Shamir Secret Sharing (или Secret Sharding, как это знают крутые дети), чтобы распространять основной пароль в моем хранилище пароля среди доверенных лиц на случай, если что -то случится со мной, и моей семьей требуется доступ ко всем моим вещам.

Синтетические совпадения/ваучеры

Синтетические совпаденияэто просто искусственно сгенерированоВаучеры на безопасностькоторые предназначены для того, чтобы выглядеть как законные матчи противОслепленная база данных хешслучайному наблюдателю на клиенте или на сервере.

Примечательно, что ваучеры на безопасность, связанные сСинтетические совпаденияпусты и без вещества. Например, они не содержат ценногоСекретные осколкини какие -либо фактические метаданные изображения илиВизуальные производныеПолем

В статье Apple идет на некоторые длины, чтобы объяснить, что все устройства/учетные записи будут генерировать ряд синтетических совпадений независимо от какого -либо реального CSAM, присутствующего на устройстве, но никогда не старается объяснить почему. Почему их протокол включает в себя механизм создания кучу шумного мусора, который забивает воду как для клиента, так и для сервера и тратит ценные циклы ЦП?

Потому что именно это!

При поиске ближе к модели угрозы становится ясно, что намерение здесь заключается в том, чтобы наметить воду и скрыть количество фактических совпадений от случайных наблюдателей. Это служит для защиты как клиентской, так и серверной формы, протекающей важные метаданные через. боковой канал.

Помните, что любой сигнал в совершенно тихой среде является значительным.

Проблема, которую они пытаются разработать здесь, в принципе, такая же, как и у раннегоТорпринятие. Если только несколько людей, занимающихся конфиденциальностью, используют TOR, их уникальные модели трафика выделяются как больной большой палец в экосистеме нетронутого трафика, и их цели конфиденциальности по своей природе побеждены. Чтобы иметь возможность скрыть что -то отличное, вам нужен какой -то похожий шум, чтобы окружить его.

В этом случае, однако, цель двояка:

Предотвратить клиенту знать, сколько фактических совпадений обнаружено на устройстве
Предотвратить раскрытие сервера, которые обнаружили метаданные о учетных записях, в которых обнаружен CSAM.

Почему 1?

Совершенно правильно, что модель угроз рассматривает состязательного клиента (плохого с iPhone), у которого есть стимул скрыть CSAM от обнаружения. Если такой клиент смог точно наблюдать за количеством истинных положительных совпадений, он вытекает с важными метаданными для них, которые позволили бы им по существу тестировать изображения CSAM против протокола, чтобы найти те, которые уклоняются от обнаружения.

Почему 2?

Предпосылка здесь заключается в том, что злонамеренный наблюдатель Apple Services (сотрудники Rouge, местные или иностранные правительства, аудиторы, хакеры национальных участков), которые могут видеть не что иное, как точное количество совпадений (поскольку изображения зашифрованы) может изучить важную и компромиссную информацию об этом счете (то есть CSAM). В чужих руках эта точка единого данных может использоваться для лиц нацеливания и черной почты. Это усугубляется тем фактом, что существует очень реальная вероятность того, что ложные позитивные совпадения воспринимаются как истинные позитивы, и это может означать, что даже люди, не имеющие реальной CSAM, могут стать целью вредоносных субъектов или авторитарных правительств.

Дальнейшее чтение: Сара вызывает убедительный аргумент в пользу того, почему шум, созданный синтетическими совпадениями, недостаточна для достижения заявленных целей конфиденциальности вЗапутанные яблоки

Итак, вот и это. Просто, верно?

Сделать все это вместе

«Теперь нарисуй мне картинку, пожалуйста!».

Конечно, вот вы:

a slightly correct representation of the complete flow

Последние мысли

После написания основной части статьи, с которой я столкнулсяэтот подкастГде известный криптограф Мэтью Грин обсуждает эту систему с хозяевами. Это помогло понять немного больше о технических и нетехнических проблемах с этой системой, о проблемах с подходом к развертыванию и эффективности решения реальной проблемы (предотвращение распределения CSAM).

Некоторые из этих моментов, которые мы уже затронули в статье, но для ясности здесь является краткое изложение действительной критики (с которыми я согласен) системы Apple CSAM?

Это дико чрезмерно инженерно-на неверные вещиПолем

Зачем создавать этот сложный, конфиденциальное, криптографическое монстр прямо сейчас, если фотографии iCloud еще не зашифрованы? Если Apple уже может увидеть ваши фотографии на сервере, почему бы не сканировать их там, как и все остальные (я не одобряю эту идею, кстати)? Вместо этого они создали целую систему обнаружения на стороне клиента, которая имеет смысл, только если они планируют сквозное шифрование iCloud в будущем. Но они этого не сказали. Итак ... почему дополнительная суета?

Это только ловит известные изображения CSAM и пропускает новое злоупотребление.

Эта система обнаруживает только изображения, которые уже находятся в базе данных CSAM. Поэтому, если кто -то создает новые изображения CSAM, эта система не поймает их. Это слеп к чему -либо, еще не помеченному. Хуже того, вам нужно 30 ударов по известным изображениям, прежде чем Apple примет действия. Таким образом, кто -то с одним или двумя матчами может просто проскользнуть.

Это высокий риск, низкая награда.

Взгляд Грин тупы: «Эта система очень мало делает, чтобы остановить реальное насилие, но вносит огромное количество сложности и потенциала для неправильного использования». Он говорит, что это худшее из обоих миров:

Очень узкое обнаружение (только известный CSAM, только если вы загружаете в iCloud), массивная площадь поверхности для злоупотреблений (работает на каждом устройстве iOS с фотографиями iCloud).

Здесь я нарисовал немагический квадрант для справки:

gartnib quadrant of failed promise

4Neuralhash? Своего рода отрывочный.

Мэтт и другие разразились в алгоритме Apple Neuralhash. Они нашли это: плохо задокументированный легко реверс -инженер, уязвимый с состязательными столкновениями (вы можете настроить изображение и сделать его ложно совместимым с чем -то другим), поэтому он не в восторге от этой вещи, сидя на каждом устройстве и сканирует все перед загрузкой.

Система созрела для миссии.

Как только эта инфраструктура будет развернута на миллиардах устройств, что мешает правительству сказать: «Круто, теперь давайте сканируем запрещенные политические мемы»?

Мэтт не покупает обещание Apple «Мы никогда не позволим этому». Он отмечает, что Apple уже вступила в уступки правительствам (например, Китай), так что же сказать, что они не будут снова?

Apple выбросила слишком много, слишком быстро, с слишком небольшим количеством объяснений.

Супер подробные документы о некоторых частях (например, PSI), и вообще ничего о других (например, Internals Neuralhash). Он сказал, что это было «импровизационно», как Apple пыталась решить критику, а не прозрачно объяснять систему с самого начала.

Почему бы не начать с малого?

Если бы Apple действительно заботилась о защите детей, они могли бы начать с: лучших инструментов отчетности imessage, сканирования только общих альбомов (как и другие платформы), просмотр шаблонов метаданных, чтобы поймать скоординированное злоупотребление. Вместо этого они подтолкнули гигантскую систему наблюдения на каждую загрузку фотографии.

Это чувствует себя обусловленным давлением государственногоПолем

Правительства (такие как США, Великобритания) оказывали давление на компании, чтобы «сделать что -то» о CSAM. Apple прыгнула на пистолет. По словам Мэтта, «Snapchat должен был быть первым, но Apple попала туда первым».

Он убежден, что эта система была построена не только для борьбы с CSAM, но и для того, чтобы предотвратить надвигающееся регулирование. Я склонен согласиться.

В любом случае, хотя это был полный DUD с точки зрения Apple, я так много узнал о криптографии сохранения конфиденциальности. Хороший!

Оригинал

(Поздний) обзор технологии, стоящей за обнаружением Apple CSAM

Более конкретно известный как протокол FTPSI-AD (нечеткий порог частного набора с соответствующими данными).

Почему это даже «вещь»?

Некоторая преамбула