Защита данных и интеллектуальной собственности: варианты использования, определяющие выбор технологий повышения конфиденциальности

Защита данных и интеллектуальной собственности: варианты использования, определяющие выбор технологий повышения конфиденциальности

20 января 2024 г.

Мне нравятся недавние статьи, в которых более глубоко погружаются в синтетические данные и подчеркивают, что универсальный подход к стратегиям доступа к данным и конфиденциальности — это мираж. Лучше всего это показано в документе «О неадекватности показателей конфиденциальности на основе сходства: атаки на реконструкцию «по-настоящему анонимных синтетических данных». » Георгия Ганева и Эмилиано Де Кристофаро. Я считаю, что эта статья обязательна к прочтению всем, кто серьезно работает с синтетическими данными, и мое внимание было обращено на нее через Дэмьена Дефонтена ' потрясающий пост, в котором эффективно излагаются ключевые идеи.

«Синтетические данные, если они не подкреплены надежными гарантиями конфиденциальности, такими как дифференциальная конфиденциальность (DP), могут привести к серьезным нарушениям конфиденциальности, особенно в отношении выбросов» (Ганев и Де Кристофаро, 2023). Эта цитата является отличным призывом и подчеркивает проблемы использования синтетических данных в реальных условиях и в продуктах для различных приложений.

В документе подчеркивается, что большинство продуктов синтетических данных заявляют о соответствии таким нормам, как GDPR, HIPAA или CCPA, но редко используют DP. Вместо этого многие компании используют эмпирическую эвристику для обеспечения конфиденциальности, что может нарушить сквозной конвейер DP и свести на нет его защиту конфиденциальности.

Авторы выделяют основные недостатки широко используемых показателей и фильтров конфиденциальности. Они представляют новую атаку ReconSyn, которая выявляет уязвимости этих показателей. ReconSyn восстанавливает не менее 78 % недостаточно представленных записей данных поездов (выбросов) с идеальной точностью в различных моделях и наборах данных.

В документе определены восемь основных проблем с использованием показателей конфиденциальности на основе сходства (SBPM), включая отсутствие теоретических гарантий, рассмотрение конфиденциальности как бинарного свойства и отсутствие анализа наихудшего случая. Эти ограничения представляют собой серьезную уязвимость для атак на конфиденциальность.

Привлекательность синтетических данных заключается в их предполагаемой конфиденциальности и полезности, особенно для тестирования программного обеспечения и моделей, поскольку они создают безопасную площадку без раскрытия конфиденциальных реальных данных. Однако синтетические данные могут оказаться менее полезными для глубокого анализа и обучения моделей. В документе подчеркивается, что синтетические данные, полученные из высококонфиденциальной информации, часто не обеспечивают должной конфиденциальности, если они не включают строгие методы сохранения конфиденциальности, такие как DP.

Это различие приводит нас к более широкому взгляду на сферу технологий повышения конфиденциальности (PET). Зачастую нецелесообразно выбирать какой-то один PET, например, доверенную среду выполнения или гомоморфное шифрование, поскольку на практике все они имеют свои идеальные варианты использования. Цель их использования должна быть основной движущей силой технологических решений. Иногда синтетических данных достаточно; в других случаях необходим более строгий контроль.

Цель и вариант использования всегда должны быть в центре внимания любой стратегии защиты данных. Например, защита высококонфиденциальных данных в сценариях, где точность имеет первостепенное значение, может потребовать гомоморфного шифрования или DP. И наоборот, в сценариях с меньшим риском конфиденциальности или менее конфиденциальными данными синтетические данные могут быть жизнеспособным и эффективным вариантом.

Ганев и Де Кристофаро выступают за детальный подход к конфиденциальности данных, заявляя: «Критический анализ текущих показателей конфиденциальности и принятие эмпирически обоснованных методов необходимы для обеспечения реальной конфиденциальности при создании синтетических данных» (Ганев и Де Кристофаро, 2023). .

Эта точка зрения должна способствовать выбору подходящих ПЭТ на основе конкретных случаев использования, балансируя двойные требования полезности и конфиденциальности.

Ссылки:

  • Ганев Г. и amp; Де Кристофаро, Э. (2023). О неадекватности показателей конфиденциальности, основанных на сходстве: атаки на реконструкцию «действительно анонимных синтетических данных». - https://arxiv.org/abs/2312.05114v1


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE