Вы отравляете свои данные? Почему вы должны знать об отравлении данных

Вы отравляете свои данные? Почему вы должны знать об отравлении данных

12 мая 2022 г.

Машинное обучение — замечательная технология. Он обещает изменить бизнес-аналитику, обслуживание клиентов, найм и многое другое. Но весь этот потенциал сопряжен с некоторыми не менее серьезными опасениями. Отравление данными может сделать эти алгоритмы бесполезными или даже вредными.


Проблемы управления и безопасности уже сегодня являются главными препятствиями в машинном обучении. Отравление данными может привести к новым рискам, сделать эти проблемы еще более распространенными и потенциально навредить внедрению машинного обучения.


Предприятия должны понимать эти риски, чтобы безопасно и эффективно использовать эту технологию. Имея это в виду, мы более подробно рассмотрим отравление данных и то, что компании могут сделать, чтобы предотвратить это.


Что такое отравление данных?


Несмотря на огромный потенциал сбоев, отравление данных довольно просто. Он включает в себя введение вводящей в заблуждение или ошибочной информации в наборы данных для обучения машинному обучению. Когда модель учится на этих отравленных данных, она будет давать неточные результаты.


Насколько разрушительны эти атаки, может варьироваться в зависимости от модели и рассматриваемых зараженных данных. Они могут быть такими же ручными, как заставить алгоритм НЛП (обработка естественного языка) не распознавать некоторые слова с ошибками. Кроме того, они могут поставить под угрозу карьеру людей.


Печально известный проект алгоритма рекрутинга Amazon намекает на то, к чему может привести атака с отравлением данных. Компания отказалась от проекта после того, как поняла, что модель [приучила себя отдавать предпочтение мужчинам] (https://www.reuters.com/article/us-amazon-com-jobs-automation-insight/amazon-scraps-secret-ai- рекрутинг-инструмент-который-продемонстрировал-предубеждение-против-женщин-idUSKCN1MK08G) из-за изучения в основном мужских резюме. Киберпреступник может отравить обучающие данные аналогичного алгоритма, чтобы получить тот же результат.


Отравление данными может произойти с любой моделью машинного обучения, черным или белым ящиком, контролируемой или неконтролируемой. Хотя подходы могут различаться в каждом сценарии, общая цель остается неизменной: вводить или изменять данные в обучающих наборах данных, чтобы нарушить целостность алгоритма.


Примеры отравления данных


Эта угроза тоже более чем теоретическая. Организации уже сталкивались с атаками с отравлением данных, и по мере того, как машинное обучение становится все более популярным, эти атаки могут стать более распространенными.


Атаки с отравлением данных __начиная с 2004 года__когда злоумышленники скомпрометировали спам-фильтры электронной почты. Киберпреступники будут вводить новые данные, чтобы эти довольно простые алгоритмы не могли распознать некоторые сообщения как спам. Затем преступники могли отправлять вредоносные сообщения, которые не попадали под радар этих средств защиты.


Один из самых известных примеров отравления данных произошел в 2016 году с чат-ботом Microsoft Tay. Бот, который узнал из того, как люди взаимодействовали с ним, быстро начал использовать неподходящие слова и изображения после пользователи намеренно сделали то же самое с ним. Tay, по задумке, приучил себя к тому, что люди разговаривают именно так, поэтому принял оскорбительный язык.


Почему специалисты по данным должны быть обеспокоены?


Хотя некачественные спам-фильтры и грубые чат-боты не идеальны, они могут не показаться особенно опасными. Однако отравление данных может быть гораздо более опасным, особенно в связи с тем, что предприятия все больше полагаются на машинное обучение.


В 2019 году исследователи показали, как они могут [отравить дорожный знак] (https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=8685687) идентификатор, чтобы распознавать знаки остановки как знаки ограничения скорости. Если такая атака нацелена на беспилотные автомобили, они могут проехать через знаки остановки, подвергая опасности пассажиров и других водителей. Подобные атаки могут привести к тому, что эти машины перестанут видеть пешеходов, что приведет к столкновениям и угрозе жизни людей.


Атаки с отравлением данных также становятся все более опасными, поскольку автоматизация становится все более распространенной в кибербезопасности. Подобно тому, как ранние атаки снижали эффективность спам-фильтров, новые могут повлиять на модели обнаружения вторжений или другие алгоритмы безопасности. Злоумышленники могут привести к тому, что программное обеспечение для мониторинга не сможет распознать ненормальное поведение, открывая дверь для более разрушительных атак.


С 32% организаций меняют свою долгосрочную стратегию в ответ на аналитику данных, отравление может иметь серьезные последствия для бизнеса. Киберпреступники могут создавать вводящие в заблуждение модели аналитики, которые заставляют организации использовать неверные методы, что может привести к потере прибыли и бизнеса.


Как защититься от отравления данными


Учитывая, насколько разрушительным может быть отравление данных, специалисты по данным должны защищаться от него. Ключом к этой защите является предотвращение и поиск несанкционированного доступа к наборам обучающих данных.


Предприятия должны внимательно относиться к своим источникам обучающих данных, проверяя даже данные из надежных источников, прежде чем использовать их. Если организации должны переместить свои обучающие данные, они должны проверить их до и после, чтобы убедиться, что при передаче не произошло отравления. Поэтапная миграция данных также идеальна, поскольку она не создает простоев и сводит к минимуму возможности злоумышленников для внедрения вредоносных или вводящих в заблуждение данных.


Разработчики машинного обучения должны максимально ограничивать доступ к своим обучающим данным и внедрять строгие средства идентификации. Поскольку более 80% хакерских атак используют потерянные или украденные учетные данные, многофакторная аутентификация критический. Если команды используют локальные центры обработки данных, они также должны ограничить физический доступ к серверным комнатам с помощью карт-ключей и камер видеонаблюдения.


Частые аудиты могут выявить изменения в наборах данных, что указывает на атаку отравления. Специалисты по данным также должны понимать свою роль в том, как эти модели обучаются, стараясь не допустить проникновения собственных предубеждений и непреднамеренного отравления данных.


Доверие к данным создает новые риски


По мере того, как компании все больше полагаются на данные и технологии, ориентированные на данные, уязвимость данных становится все более серьезной. Машинное обучение может дать впечатляющие результаты, но компании должны следить за тем, чтобы злоумышленники не вводили их алгоритмы в заблуждение.


Отравление данными может сделать изменившую правила игры модель бесполезной или даже вредной. Специалисты по данным должны понимать эту угрозу, чтобы безопасно и эффективно разрабатывать модели машинного обучения.





Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE