Резюме и обзор этического алгоритма
31 марта 2022 г.Краткое изложение и обзор: Этический алгоритм: наука о разработке алгоритмов, учитывающих социальные аспекты, авторы Аарона Рота и Майкла Кернса.
Алгоритмы существуют уже давно — некоторые говорят, что самые ранние алгоритмы были написаны около 4000 лет назад вавилонянами. Алгоритмы использовались для практических целей, таких как вычисление площади сельскохозяйственных угодий и сложных процентов по кредитам. Древнеиндийская математика была строго алгоритмической, и вычисления проводились, помимо прочего, для оценки положения планет с верой в то, что планеты и их положения влияют на события в нашей жизни.
Гораздо позже алгоритмы стали заменять человеческие суждения. Одним из первых применений было кредитование. Алгоритмы кредитного скоринга заменили человеческое чутье для оценки кредитоспособности заемщиков. Люди не обязательно хороши в принятии сложных решений. Мы подвержены множеству когнитивных искажений , которые заставляют нас принимать ошибочные решения. Эмоции затмевают наши суждения. На основании одной и той же информации врачи, психиатры, винные эксперты и страховщики часто приходят к разным выводам — проблема «шума» в принятии решений. В отличие от нас, людей, алгоритмы принятия решений последовательны: одни и те же входные данные каждый раз генерируют одни и те же выходные данные. У них нет выходных, и они не проявляют эмоций. В книге, опубликованной в 1954 году, Пол Мил утверждал, что алгоритмы, основанные на статистических моделях, часто более точны, чем специалисты по клинической диагностике психического здоровья. .
Совсем недавно Клейнберг и его коллеги показали, что в уголовном правосудии алгоритм может превзойти судей в оценке рисков. Эти алгоритмы кодируют шаблоны, обнаруженные статистическими методами, применяемыми к данным.
В конце двадцатого века сошлись две основные технологические тенденции: рост Интернета и резкое увеличение вычислительной мощности. Интернет позволил соединить компьютеры всего мира и дал возможность обмениваться данными. Огромный рост вычислительной мощности и доступность огромных объемов данных стимулировали прогресс в области машинного обучения, например, разработку мощных методов для классификации, идентификации и прогнозирования поведения человека. Этот успех вдохновил на применение в самых разных областях: социальная справедливость (например, прогнозирование риска рецидивизма), проверка занятости, оценка студентов при поступлении в колледж, охрана правопорядка и многие другие.
Машинное обучение, как и такие технологии, как атомная энергетика и социальные сети, — это палка о двух концах: с его огромной способностью преобразовывать общество существует возможность нанести большой вред. Ученые-компьютерщики, привыкшие работать с техническими критериями успеха — скоростью вычислений, точностью прогнозирования и точностью — не обращали внимания на воздействие своих моделей и алгоритмов на человека.
Модели машинного обучения могут быть сложными и непрозрачными, и часто даже разработчики моделей не могут предсказать, как они поведут себя в конкретных ситуациях. Журналисты и сторонники социальной справедливости задокументировали несколько случаев причинения вреда в результате неизбирательного применения моделей машинного обучения, что вызывает этические опасения по поводу использования алгоритмов в целом. К делу подключились и контролирующие органы. В США Федеральная торговая комиссия (FTC) недавно выпустила жесткое заявление для компаний, чьи алгоритмы нарушают принципы справедливости и равноправия. Исследователи приняли эти опасения близко к сердцу, и за последние пять или около того лет произошел взрыв исследовательских работ по решению этических проблем при использовании алгоритмов.
Майкл Кернс и Аарон Рот, оба профессора факультета компьютерных и информационных наук Пенсильванского университета, внесли большой вклад в это исследование. Их книга «Этический алгоритм — наука о разработке социально осознанных алгоритмов», опубликованная в 2019 году, написана для неспециалистов. Книга представляет собой очень доступное введение в этические проблемы и алгоритмические решения для управления конфиденциальностью, справедливостью и политической поляризацией из-за алгоритмов рекомендаций и персонализации, а также подводные камни использования одних и тех же наборов данных для проведения адаптивного анализа. Они также затрагивают темы, в которых исследования менее развиты, такие как интерпретируемость моделей машинного обучения. Однако они слишком оптимистичны в отношении того, что алгоритмы способны решать этические проблемы, возникающие при алгоритмическом принятии решений.
Подумайте о конфиденциальности. Большинство наших социальных взаимодействий и коммерческих транзакций оцифрованы. Наши онлайн-действия отслеживаются и записываются, а данные анализируются, продаются и используются для таргетинга рекламы и продуктов. Утечки данных происходят все чаще, раскрывая нашу личность, наши кредитные карты и другие личные данные. Серьезный вред может быть причинен, если эти данные попадут в чужие руки. Автократические правительства использовали свою власть над компаниями, чтобы завладеть конфиденциальной информацией, которая использовалась для преследования их противников. Мошенники использовали личные данные для обмана людей.
Шаблоны поведения, извлеченные из больших объемов данных, могут использоваться для вывода личных данных, которые мы, возможно, не хотим раскрывать. Исследователи из Facebook показали, что можно с высокой степенью точности предсказать партнеров пользователей и какие партнеры с наибольшей вероятностью расстанутся, просто основываясь на их действиях в их ленте Facebook и в их сетях друзей. Датчики на наших смартфонах могут отслеживать наше местоположение. Журналы использования нашего приложения, посещений веб-сайтов, использования медиа, общения и активности на экране могут использоваться для предположений о наших личностных чертах, эмоциональном и психическом благополучии. /17680) и может использоваться для влияния на действия людей, включая решения о покупках и поведение при голосовании.
Конфиденциальность определяется как право человека не допускать раскрытия его личной информации. Декларация прав человека ООН признает конфиденциальность как основное право человека. Хотя право на неприкосновенность частной жизни прямо не прописано в Конституции США, Верховный суд США признал его как подразумеваемое право. Европейский Союз принял первый закон, обеспечивающий всестороннюю защиту личных данных. Известный как Общий регламент по защите данных (GDPR), этот регламент требует от компаний прозрачности своих данных. методы сбора и предоставили пользователям контроль над сбором данных. Калифорния приняла аналогичный закон, Калифорнийский закон о защите прав потребителей
С другой стороны, агрегированные личные данные содержат полезную информацию со многими полезными приложениями. Прецизионная медицина — лечение, разработанное с учетом генетики, окружающей среды и образа жизни человека — опирается на сбор огромных объемов данных о пациентах. Исследовательская программа, созданная NIH в США, под названием “All of Us” нацелен на сбор данных от одного миллиона человек в США, чтобы помочь создать одну из самых разнообразных баз данных о здоровье в истории. Исследователи будут использовать данные, чтобы узнать, как наша биология, образ жизни и окружающая среда влияют на здоровье. Это может однажды помочь им найти способы лечения и профилактики болезней. Во время нынешней пандемии Covid-19 медицинские карты пациентов используются для прогнозирования течения пандемии. Кроме того, данные о местоположении людей используются для отслеживания контактов, чтобы контролировать распространение болезни. Еще одно впечатляющее использование медицинских данных было продемонстрировано доктором Моной Ханна-Аттиша в ее открытии что вода во Флинте, штат Мичиган, была загрязнена свинцом, что привело к повышенному уровню свинца в крови детей в этом районе. Компания 23andMe сделала свои генетические данные клиентов доступными для избранных партнеров для исследования более 1000 заболеваний, состояний и признаков. для выявления новых ассоциаций между генетическими маркерами. 23andMe утверждает, что «один клиент, решивший участвовать в исследованиях, участвует в более чем 230 исследованиях по различным темам здравоохранения», что ускоряет медицинские исследования и приводит к значительным открытиям с меньшими затратами и меньшим временем. Данные переписи населения США используются в различных целях: от распределения мест в палате представителей США до определения объема финансирования, которое должно быть получено штатом. и местные органы власти от федерального правительства и определение того, где предоставлять услуги пожилым людям и где строить новые дороги и школы.
После нескольких неудачных попыток ученые-компьютерщики нашли способ осознать ценность данных, защищая частную жизнь людей. Важно различать два тесно связанных понятия: анонимность и конфиденциальность. Конфиденциальность определяется как право человека не допускать раскрытия его личной информации. Принимая во внимание, что человек является анонимным, когда его / ее информация раскрывается без раскрытия его личности. Ранний подход к защите отдельных лиц включал анонимизацию данных путем удаления их идентифицирующих атрибутов, таких как имя и адрес. Однако удаления личной информации было недостаточно для сохранения анонимности.
Используя данные переписи населения США 1990 года, Латания Суини продемонстрировала, что 87 % населения США можно однозначно идентифицировать по полу, почтовому индексу и полной дате рождения. Кроме того, в драматическом разоблачении она объединила почтовые индексы, дату рождения и пол в страховых данных, которые были доступны общественности. с базой данных избирателей города Кембридж, которую она купила за 20 долларов, и идентифицировала медицинские записи тогдашнего губернатора Массачусетса Уэлда. Арвинд Нараянан и Виталий Шматиков смогли повторно идентифицировать часть анонимных данных рейтинга фильмов Netflix с отдельными потребителями на потоковом веб-сайте. Данные были опубликованы Netflix в 2006 году после замены отдельных имен случайными числами и перемещения личных данных.
Два исследователя деанонимизировали некоторые данные, сравнив их с рейтингами фильмов неанонимных пользователей IMDb (Internet Movie Database). В результате исследование были поразительные откровения о том, как легко повторно идентифицировать пользователей Netflix. Например, просто зная данные только о двух фильмах, просмотренных пользователем, включая точную оценку и дату оценки плюс-минус три дня, можно добиться успеха повторной идентификации в 68%.
Более сложный тип анонимизации, называемый k-анонимизация, дополненный чем-то, называемым l-разнообразие было предложено исправить эти дефекты. k-anonymity стремится сохранить конфиденциальность, «скрывая людей в толпе». Это достигается за счет снижения точности отдельных атрибутов, например, путем замены возраста возрастным диапазоном и заменой почтового индекса более крупной географической областью. Набор записей называется k-анонимным , если любая комбинация конфиденциальных атрибутов, появляющихся в базе данных, соответствует по крайней мере k людям. Однако k-анонимность защищает конфиденциальность только при соблюдении определенных условий, например, когда значение атрибута для группы k людей неодинаково. Уточнение метода, известного как l-разнообразие , было разработано для поддержания не менее l различных значений для каждого из конфиденциальных атрибутов в каждой группе k. Хотя l-разнообразие лучше k-анонимности, оно все же может привести к утечке информации о чувствительных атрибутах — можно с высокой вероятностью оценить, что у человека есть определенное заболевание, или что чья-то зарплата находится в узком диапазоне значений.
Чтобы добиться прогресса в защите частной жизни, нам нужен формальный критерий, который можно гарантировать. Несколько десятилетий назад статистик Торе Далениус предложил строгое определение конфиденциальности данных: все, чему можно научиться информация о человеке из базы данных должна быть доступна без доступа к этой базе данных. Однако Синтия Дворк и ее коллеги показали, что такое определение конфиденциальности не может быть гарантировано. Они предложили использовать альтернативный критерий защиты конфиденциальности, который стал известен как Дифференциальная конфиденциальность. Этот критерий гласит, что из базы данных нельзя узнать ничего о человеке, чего нельзя узнать из того же набора данных, но с удалением человека.
Интуитивно понятно, что запрос защищает конфиденциальность отдельных лиц в данных, если его выходные данные не раскрывают никакой информации о каком-либо конкретном лице. Дифференциальная конфиденциальность математически формализует эту интуицию, чтобы обеспечить гарантию защиты конфиденциальности. Мы можем доказать, что конкретный алгоритм «удовлетворяет» дифференциальной конфиденциальности. Конфиденциальность — это не просто свойство вывода, а скорее свойство вычисления, которое сгенерировало вывод. Неформально дифференцированная конфиденциальность гарантирует следующее для каждого человека, который предоставляет данные для анализа:
Дифференциальная конфиденциальность работает, добавляя шум к выходным данным запроса. Задача состоит в том, чтобы определить, где добавить шум и сколько добавить. Мы можем контролировать силу гарантии конфиденциальности, настроив параметр, известный как потеря конфиденциальности или бюджет конфиденциальности. Чем ниже значение этого параметра, тем менее различимы результаты и лучше защита.
Дифференциальная конфиденциальность получила широкое распространение среди правительств, фирм и исследователей. Он уже используется для «предотвращения разглашения» U.S. перепись. Apple использует дифференциальную конфиденциальность для анализа пользовательских данных, начиная от предложений смайликов и заканчивая сбоями Safari. Google даже выпустил версию с открытым исходным кодом дифференциальной библиотеки конфиденциальности используется во многих основных продуктах компании. Однако защита конфиденциальности снижает точность вывода запроса. Запросы с более высокой чувствительностью требуют добавления большего количества шума, чтобы удовлетворить определенный бюджет конфиденциальности, и этот дополнительный шум может сделать результаты менее полезными. При дифференциальной конфиденциальности для желаемого уровня защиты конфиденциальности точность результатов повышается с увеличением объема данных. С небольшими наборами данных вы либо жертвуете конфиденциальностью, либо точностью результатов запросов к данным.
Это большая проблема для данных переписи. В то время как статистические данные для больших групп населения — например, для целых штатов или крупных городских агломераций — могут быть адекватно защищены с помощью незначительного количества шума, многие важные виды использования данных переписи требуют расчетов для небольших групп населения, таких как коренные племена Аляски, где воздействие шум может быть гораздо более значительным. Одной из сложностей, с которой столкнулось Бюро переписи населения, была необходимость тщательного перечисления множества способов использования данных переписи и определения того, какое из этих применений является более важным, чем другие. Тем не менее, результаты были лучше, чем полученные ранее использовавшимися методами.
Литература по алгоритмам обеспечения конфиденциальности может быть запутанной, но Кернс и Рот обеспечивают превосходное обсуждение истории этих алгоритмов и ясное объяснение ключевых идей, лежащих в их основе. Они используют много примеров из реальной жизни, чтобы проиллюстрировать эти идеи. Они также указывают на ограничения этих алгоритмов. Дифференциальная конфиденциальность предназначена для защиты секретов в отдельных записях данных, но не защищает секреты, встроенные в записи многих людей. Даже при дифференциальной конфиденциальности кто-то может использовать данные из Facebook о лайках пользователей, чтобы обнаружить закономерности, которые можно использовать для определения пола пользователей, политической принадлежности, сексуальной ориентации и многих других атрибутов.
Кернс и Рот обсуждают идею справедливости в длинной главе. Вскоре после того, как машинное обучение было использовано в таких приложениях, как социальная справедливость, скрининг занятости и оценка риска для здоровья, стали появляться сообщения о гендерных, расовых и других типах предубеждений. В широко обсуждаемом отчете в периодическом издании Propublica говорится о серьезных предубеждениях в отношении афроамериканцев в инструменте для оценки обвиняемых по уголовным делам за риск рецидива. Amazon закрыла модель для отбора кандидатов на работу после того, как они поняли, что она наказывает женщин. Прогностические полицейские системы стали предметом пристального внимания, и их использование было ограничено из-за обнаруженных предубеждений. Системы персонализации контента создают пузыри фильтров, а системы ранжирования рекламы обвиняют в расовом и гендерном профилировании. Встраивание слов Google, обученное на веб-корпусе, продемонстрировало гендерную предвзятость.
Министерство юстиции США использует концепцию разрозненного воздействия в качестве правового стандарта справедливости в таких ситуациях. Алгоритм оказывает несоизмеримое влияние, когда он дает разные результаты для групп людей, определяемых защищенными чертами. Защищенные черты включают в себя: расу, цвет кожи, вероисповедание, пол, религию, национальное происхождение, физические недостатки, сексуальную ориентацию и гендерную идентичность. Существует два способа применения разрозненных воздействий для оценки алгоритмов: статистический или групповой справедливость и отдельно справедливость. Не существует универсально применимого критерия групповой справедливости. Ответственность за определение соответствующего критерия ложится на разработчика модели. Предлагаемые критерии включают: статистический паритет (все группы имеют одинаковую долю положительных прогнозов), равенство возможностей (люди, которые фактически принадлежат к положительному классу, по прогнозам, будут находиться в положительном классе с равной вероятностью, независимо от их группы). членство), равные показатели ложных срабатываний или ложноотрицательных результатов в разных группах. Справедливость достигается за счет включения одного или нескольких из этих критериев в качестве ограничений в процесс обучения модели и в качестве оценочной метрики для моделей. Групповая справедливость обеспечивает только среднюю гарантию для отдельных лиц в защищенной группе. Это может привести к тривиальным решениям с нежелательными свойствами, например, с помощью, по словам авторов, «фальсификации справедливости», когда можно добиться результатов, справедливых для отдельных групп, но крайне несправедливых для комбинаций защищенных групп.
В отличие от групповой справедливости, индивидуальная справедливость требует, чтобы модель обращалась с одинаковыми людьми одинаково. Однако неясно, как определить сходство. Кроме того, Рот и Кернс отмечают, что все модели имеют ошибки в своих прогнозах, поэтому при наивном применении индивидуальной справедливости «его применимость будет сильно ограничена, а затраты на точность вероятно, будет неприятным; мы просто просим слишком много».
Основным источником систематической ошибки в алгоритмах являются данные, используемые для обучения моделей. В данные могут быть встроены всевозможные скрытые (и не очень) предубеждения, сложные модели, обученные на таких данных, могут усиливать эти предубеждения и вводить новые. И когда такие модели становятся основой для широко распространенных сервисов, таких как поисковые системы, таргетированная реклама и инструменты найма, предвзятость распространяется и усиливается. Усиление предвзятости происходит в системах, которые ранжируют контент, например, по контенту и персонализации рекламы в рекомендательных системах, которые представляют или отдают приоритет одним элементам над другими. Собираются ответы пользователей (которые генерируют метки для примеров) на представленные элементы, ответы на непредставленные элементы неизвестны. На реакцию пользователей также влияет положение элементов на странице и детали представления, такие как шрифт, медиафайлы (например, содержит ли элемент изображения?).
Другой способ, которым данные вносят предвзятость, - это когда разные группы не имеют единообразного представления в данных. Некоторые группы могут иметь больше данных, чем другие. Поскольку обучение модели основано на минимизации ошибки, модель будет плохо работать (относительно) на группах, которые имеют меньшее представление в данных.
По иронии судьбы стремление к конфиденциальности с использованием дифференциальной конфиденциальности может усугубить предвзятость. Как мы обсуждали ранее, обеспечение высокого уровня конфиденциальности для лиц, принадлежащих к группам с небольшими объемами данных, требует введения высокого уровня шума. Это делает данные гораздо менее точными по сравнению с группами с большими объемами данных. Решения, принимаемые на основе таких данных, могут привести к серьезному неравенству в отношении определенных групп. Дэвид Пужоль и его коллеги смоделировали выделение средств округам Конгресса, используя данные переписи населения США 2020 года с дифференциальной конфиденциальностью, и показали, что меньшие округа могут получить сравнительно больше финансирования, чем то, что они получили бы без дифференциальной конфиденциальности, а более крупные округа получат меньше финансирования.
Хотя данные являются основным источником предвзятости, они не являются единственными. Разработчик алгоритма также может ввести предвзятость, возможно, непреднамеренно. В моделях машинного обучения функции потерь, используемые в обучающих моделях, и метрики, используемые для оценки моделей, могут определять производительность модели по отношению к различным группам. Сара Хукер утверждала, что определенные варианты выбора скорости обучения и длительности обучения — гиперпараметров, устанавливаемых разработчиком модели, — могут неблагоприятно повлиять на группы, недостаточно представленные в данных.
Как добиться справедливости в алгоритмах? Смещения в данных могут быть в определенной степени устранены с помощью методов устранения смещения. Критерии справедливости можно использовать в качестве ограничений в процессе обучения модели. Некоторые другие решения, которые кажутся очевидными, оказываются проблематичными. Казалось бы, можно устранить предвзятость, избегая использования в моделях защищенных атрибутов, таких как: раса, возраст, пол. Однако исключение этих атрибутов может привести к менее точным прогнозам. Кроме того, другие атрибуты могут сильно коррелировать с расой. И что удивительно, удаление оскорбительных атрибутов иногда может даже усугубить расовую предвзятость модели. Клейнберг и его коллеги доказывают, что, вопреки интуиции, включение этих атрибутов может повысить как эффективность, так и справедливость. Эффективность касается фактической работы отдельных лиц (по некоторым показателям) с положительным результатом (на основе прогнозов модели), а справедливость касается представительства групп меньшинств среди отдельных лиц с положительным результатом.
Поэтому мы должны попытаться определить справедливость прогнозов, сделанных моделью, с точки зрения выходных данных модели, а не входных данных. Однако это не так просто, поскольку не существует золотого стандарта справедливости. Существует несколько возможных критериев. Джон Клейнберг и его коллеги показывают, что некоторые из этих критериев несовместимы друг с другом — они могут одновременно выполняться только в определенных случаях с очень большими ограничениями. Справедливый результат по одному критерию может показаться несправедливым по другому критерию. Выбор критерия сопряжен с трудностями, и для принятия решения необходимо привлечь разработчика модели и ключевых заинтересованных лиц.
Как и в случае с конфиденциальностью, существует компромисс между справедливостью и ошибкой классификации (то есть, скажем, кто-то, кто считается кредитоспособным, объявляет дефолт). Эти компромиссы можно представить в виде кривой на двумерной диаграмме, границы Парето — набора всех вариантов, которые лучше всего подходят для данного уровня ошибки и справедливости. Но только люди должны решить, какую точку выбрать на этой границе.
Книга Кернса и Рота посвящена ситуациям, когда лицо, принимающее решения, принимает решения, которые могут быть несправедливыми по отношению к некоторым затронутым группам. Эти решения при поддержке алгоритма принимаются на основе прогнозов будущих результатов отдельных лиц или групп. Но кто решает, что справедливо? То, что справедливо для одной группы, может показаться несправедливым для другой. Кернс и Рот считают, что «вопросы справедливости должны определяться многими факторами, которые нельзя сделать количественными, включая социальные цели защиты конкретной группы и то, что поставлено на карту». Эти факторы, включая выбор критерия справедливости, должны быть выбраны людьми. Алгоритмы могут реализовать критерий, но сами по себе неэтичны. Некоторые этические вопросы не имеют очевидных правильных или неправильных ответов. Рассмотрим недавний прием в Гарварде. Кандидаты азиатского происхождения были огорчены тем, что им было отказано в приеме, даже несмотря на то, что у них был более высокий средний балл и результаты тестов, чем у многих принятых кандидатов. Гарвард заявил, что им нужен разнообразный студенческий состав и требуется представительство всех групп. Апелляционный суд Бостона подтвердил позицию Гарварда, но дело обжалуется в Верховном суде. Хотя в прошлом Верховный суд выносил решения в пользу позитивных действий, мнения разделились, и решения были основаны на узком большинстве.
Существуют и другие типы ситуаций, в которых для поиска решения используются алгоритмы, которые Кернс и Рот не обсуждают. Одной из них является проблема разделения набора ресурсов между несколькими людьми (или организациями), которые имеют на них право, так что каждый получает свою долю. Здесь критерии справедливости ясны и доступны хорошие алгоритмы для поиска справедливого решения. Эта проблема, известная под рубрикой «справедливый раздел», возникает в различных условиях, таких как: раздел наследства, расторжение партнерства, урегулирование развода, электронная частота распределение, управление движением в аэропортах и эксплуатация спутников наблюдения Земли, а также перераспределение округов для целей голосования. В случае с перераспределением округов проблема заключается в том, что правящая партия в штате может попытаться «манипулировать» — разграничить округа таким образом, чтобы это было выгодно ей и наносило ущерб другой стороне. Республиканцы открыто заявляют, что с циклом перераспределения избирательных округов, который начнется после переписи 2020 года, они намерены сфальсифицировать путь к [повторному захвату Палаты представителей США в 2022 году] (https://www.theguardian.com/commentisfree/2021/jun/ 28/республиканцы-подтасовки-конгресс-выборы). Математики разработали алгоритмы обнаружения и предотвращения мошенничества.
Другая этическая проблема возникает, когда на результаты наших действий влияют действия других. Одним из примеров является вождение. Мы разделяем дорожную систему с другими водителями — сеть автострад, шоссе и улиц. Водители обычно выбирают кратчайший маршрут (обычно с точки зрения времени) до места назначения. Однако затраченное время зависит от решений, принятых всеми другими водителями, использующими те же дороги. До появления таких технологий, как Waze и Google Maps, определить такие маршруты было очень сложно. Waze и Google Maps рассчитывают для нас кратчайшие маршруты. Однако эти маршруты вычисляются для каждого водителя отдельно. Предложение одного и того же маршрута для каждого водителя увеличивает заторы, и предлагаемые маршруты могут уже не быть самыми короткими. С этической точки зрения такая «эгоистичная» маршрутизация снижает полезность водителей (при условии, что время до места назначения — это цель, которую они хотят минимизировать). Лучшее решение — возможность сократить время вождения для некоторых водителей, не ухудшив положение других, — возможно. Кернс и Рот описывают один подход, который может использовать приложение. Вместо того, чтобы всегда предлагать эгоистичный или наилучший маршрут для каждого пользователя в отдельности, это приложение собирает запланированный пункт отправления и назначения каждого пользователя в системе и использует его для расчета маршрутов для каждого пользователя, что минимизирует среднее время вождения для всех водителей. (максимальное социальное решение). Для этого приложению может потребоваться рекомендовать медленный маршрут одним водителям и быстрый маршрут другим водителям. Авторы отмечают, что это можно сделать без ущерба для кого-либо, чем в конкурентном решении. Но будет ли такое приложение работать? Водители, которым предлагается более длинный маршрут, могут проигнорировать рекомендацию приложения и выбрать другой (кратчайший) маршрут, что ухудшит ситуацию для всех (например, с помощью другого приложения, такого как Google Maps). Дифференциальная конфиденциальность снова приходит на помощь — поскольку данные одного водителя имеют мало влияния, такие манипуляции, как ложь о том, куда вы хотите поехать, не принесут пользы. Это может быть лучшим решением, если каждый водитель будет одинаково ценить свое время (предположение, которое имплицитно делают Кернс и Рот). Однако для того, кто спешит в больницу или едет в аэропорт, чтобы успеть на самолет, более короткое время в пути будет означать гораздо больше, чем если бы кто-то ехал, чтобы добраться до места отдыха. Нам нужен ценовой механизм, позволяющий водителям сигнализировать о своей ценности во времени. Лучшим решением является ценообразование на основе перегрузки, когда взимаемая цена представляет собой предельные социальные издержки поездки с точки зрения воздействия на других. Водители, спешащие добраться до пункта назначения, скорее всего, будут платить за проезд по менее загруженным маршрутам, а другие могут довольствоваться более длинными маршрутами. Это решение также может быть менее сложным для вычисления, чем то, которое предлагают Кернс и Рот.
Подобные социально плохие результаты могут иметь место и в других ситуациях. Многие из нас получают новости с платформ рекомендаций контента, таких как Facebook и Youtube. Facebook и Youtube применяют методы машинного обучения для создания индивидуальных профилей интересов пользователей на основе коллективных данных и используют эти модели для выбора того, что будет отображаться в их новостной ленте. Наши коллективные данные используются для оценки небольшого числа типов пользователей, и каждый из нас относится к одному из них.
Наш «тип» определяет новости и статьи, которые мы видим в наших потоках, сужая разнообразие контента, который мы видим, изолируя каждого из нас в наших собственных эхо-камерах. И чем больше мы принимаем предложения (нажимайте на статьи в ленте), тем больше мы подчеркиваем эхо-камеру. Возможно, это привело к безудержной поляризации, которую мы наблюдаем сегодня в США, поскольку мы стали менее информированными и, следовательно, менее терпимыми к противоположным точкам зрения. Это результат того, что алгоритмические системы, основанные на моделях, пытаются одновременно оптимизировать выбор каждого. Однако можно использовать эти же алгоритмы для внесения разнообразия, скажем, рекомендуя статьи, ориентированные на типы, отличные от нас (можно вычислить, насколько различаются типы — расстояние между ними).
Рабочим решением может быть внедрение «ручки» (которую могут настраивать читатели) для настройки того, насколько «персонализированными» должны быть рекомендации.
В то время как большинство алгоритмов, которые мы обсуждали, вынуждены искать компромисс между двумя или более конфликтующими целями (ошибка классификации и честность или конфиденциальность и социальная польза), семейство алгоритмов, решающих так называемую проблему стабильного сопоставления. Алгоритм, впервые предложенный Дэвидом Гейлом и Ллойдом Шепли, был расширен для решения множества практических задач, в первую очередь Элвином Ротом (отцом одного из авторов рецензируемой книги), включая подбор кандидатов в медицинские ординатуры, студентов в школы и доноров почки реципиентам. Алгоритм сопоставления почек спас множество жизней. До 2005 года, когда был осуществлен первый обмен почки, только 20–25 процентов нуждающихся в почке смогли найти подходящую почку. Пациентов либо подбирали к живому донору, готовому пожертвовать свою почку пациенту, либо от трупа. Рот разработал алгоритм, который значительно увеличил пул кандидатов, создав пары непрямых обменов между донорами и реципиентами. Когда донор не может передать почку своему предполагаемому реципиенту из-за иммунологической несовместимости, его можно подобрать к другому реципиенту, гарантируя, что предполагаемый реципиент также получит почку. Согласно одной оценке, 6 из 10 трансплантаций живых доноров в 2016 году не были бы произведены без алгоритма. Элвин Рот и Ллойд Шепли были удостоены Нобелевской премии по экономике 2012 года.
Статистика учит нас правильным методам анализа данных и построения моделей: подходящие модели и проверяемые гипотезы фиксируются независимо от данных, а предварительный анализ данных не учитывается в процедуре сбора данных. Однако практика анализа данных при разработке моделей машинного обучения очень адаптивна — выбор модели выполняется итеративно для набора данных путем настройки гиперпараметров, а исследовательский анализ данных проводится для выдвижения гипотез, которые затем проверяются на тех же используемых наборах данных. обнаружить их. Это приводит к чрезмерной подгонке к данным — и модели не хватает общности. По памятным словам экономиста Рональда Коуза: «Если вы будете пытать данные достаточно долго, они признаются в чем угодно». Эту практику часто называют р-хакингом, и ее отчасти обвиняют в неожиданном преобладании невоспроизводимой науки в некоторых эмпирических областях.
Многие широко разрекламированные результаты, такие как идея «позы силы» Эми Кадди, чье выступление на TED в 2012 году набрало более 60 миллионов просмотров на веб-сайте TED, не могут быть воспроизведены. А в эссе 2005 года в PLoS Джон Иоаннидис заявил, что большинство опубликованных результатов исследований являются ложными. Помимо p-hacking, еще одна причина этого заключается в том, что результаты экспериментов распространяются выборочно — положительные результаты публикуются, отрицательные игнорируются.
Адаптивного анализа нельзя избежать, если доступные наборы данных относительно малы. Таким образом, средство от чрезмерной подгонки необходимо. И снова на помощь приходит дифференциальная конфиденциальность. Оказывается, добавление шума к тренировочным данным или вывод модели снижает вероятность переобучения. Блюм и Хардт предложили еще одну идею, которая еще больше повышает универсальность модели: вместо того, чтобы сообщать о производительности каждой итерации модели, сообщайте о производительности модели только тогда, когда модель превосходит предыдущую оценку с отрывом.
Кернс и Рот признаются, что в освещении тем они предпочли «смотреть, где свет». Справедливость и конфиденциальность были в центре внимания средств массовой информации. Они также являются наиболее разработанными с точки зрения теории и методологии. Алгоритмы сопоставления достаточно зрелые, и они заслуживают большей известности, учитывая их очевидную роль в спасении жизней и поиске предпочтительных совпадений для тысяч студентов-медиков.
В заключительной главе обсуждаются менее развитые, но тем не менее важные темы. Одной из важных тем является «черный ящик» моделей, особенно моделей нейронных сетей, что затрудняет их интерпретацию. Это отсутствие интерпретируемости моделей вызвало проблемы - возникли проблемы с трудно обнаруживаемой предвзятостью, что привело к потере доверия. Определить, является ли модель черного ящика справедливой по отношению к полу или расовым группам, гораздо сложнее, чем определить, имеет ли интерпретируемая модель такую предвзятость. Некоторые типы моделей более интерпретируемы, чем другие. Модели регрессии (линейные и логистические) и деревья решений являются одними из таких типов. Самый простой способ добиться интерпретируемости модели — использовать только эти типы моделей. Синтия Рудин и ее коллеги разработали методы, позволяющие интерпретировать другие типы моделей. Как и в случае справедливости, необходимо выбрать соответствующий критерий интерпретируемости и применить его в качестве ограничения в процессе обучения модели.
Разработчик модели и пользователи модели должны выбрать критерий, соответствующий контексту использования. Примерами критериев являются: монотонность по предикторным переменным, разреженность модели (модели с небольшим количеством предикторов), разложимость на подмодели. Создание интерпретируемых моделей иногда может быть намного сложнее, чем создание моделей черного ящика, по многим причинам, в том числе: обучение модели может потребовать гораздо больших вычислительных ресурсов, может возникнуть потребность в получении более качественных данных, а критерий интерпретируемости может быть неочевидным. Интерпретируемость должна быть целью только для моделей, используемых в решениях с высокими ставками, таких как медицинский диагноз и вынесение приговора в рамках уголовного правосудия.
Есть ли пределы тому, насколько мы можем полагаться на алгоритмы для решения этических проблем, связанных с алгоритмическим принятием решений? Ясно, что бывают такие ситуации, как военные действия, когда необходимо принимать решения о жизни и смерти. Поскольку алгоритмы не обладают моральным правом и не могут нести ответственность, решения в таких ситуациях должны принимать только люди. Кернс и Рот считают, что в большинстве других ситуаций решение этических проблем при алгоритмическом принятии решений должно быть алгоритмическим. Однако компромиссы между конкурирующими целями — например, между личной конфиденциальностью и социальной полезностью данных — должны устанавливаться людьми.
Для конкретных проблем, которые обсуждают Рот и Кернс, алгоритмические решения оказались ненадежными. Дифференциальная конфиденциальность хорошо работает для защиты конфиденциальности больших групп людей, но не для небольших групп или отдельных лиц. Кроме того, механизмы дифференциальной конфиденциальности были разработаны для определенных наборов запросов и не являются универсальными. Механизмы справедливости работают на групповом уровне, но не гарантируют справедливости для отдельных лиц. Индивидуальная справедливость оказалась трудной для решения, поскольку, хотя можно сформулировать общий принцип справедливости — с одинаковыми людьми следует обращаться одинаково — его трудно реализовать алгоритмически, поскольку сходство определяется контекстом. Витгенштейн в своих «Философских исследованиях» обсуждает трудности понимания правил как абстрактного утверждения.
Вместо этого он утверждал, что правила лучше всего объясняются примерами. Люди учатся применять правило, наблюдая, как другие (инструкторы, учителя) применяют правило в различных ситуациях. Иногда у них могут быть ошибки, которые они могут исправить. Точно так же алгоритмическое принятие решений не обязательно должно быть автономным. Лучшие результаты могут быть получены с участием человека (или людей). В таких контекстах, как решения о приеме в колледж, вопросы справедливости лучше всего решать в интерактивном режиме посредством процесса диалектики с участием других людей, в том числе затронутых (когда это целесообразно) — процесс, по сути, неалгоритмический. Одним из ключевых вопросов, который необходимо решить в рамках этого процесса, являются критерии справедливости, относящиеся к ситуации. В определенных ситуациях, когда включение людей в цикл может быть неэффективным, например, при анализе наборов данных или поиске оптимального маршрута к месту назначения, может потребоваться алгоритмическое решение этических вопросов.
Может ли алгоритм быть потенциальной угрозой для человечества? Ник Бостром, Илон Маск и Стивен Хокинг среди других выдающихся людей считают ИИ нашим самым серьезным экзистенциальным риском. Они опасаются, что сверхинтеллектуальный ИИ может означать конец человеческой расы. Это зафиксировано в мысленном эксперименте Ника Бострома, философа из Оксфордского университета. Бостром счел « [проблему управления] (https://philosophicaldisquisitions.blogspot.com/2014/08/bostrom-on-superintelligence-5-limiting.html)» неприятной: как люди могут контролировать сверхразумный ИИ даже когда ИИ на порядки умнее. Мысленный эксперимент Бострома выглядит следующим образом: предположим, что кто-то программирует и включает ИИ, целью которого является производство скрепок. ИИ дается способность учиться, чтобы он мог лучше изобретать способы достижения своей цели. Поскольку ИИ сверхразумен, если есть способ превратить что-то в скрепки, он его найдет. ИИ целеустремленный и более изобретательный, чем любой человек, поэтому он будет присваивать необходимые ресурсы везде, где они доступны. Скоро мир будет наводнен скрепками.
Ученый-компьютерщик __Стюарт Рассел считает__что один из способов обойти эту экзистенциальную угрозу — научить сверхинтеллектуальный ИИ удовлетворять человеческие потребности. предпочтения. Ясно, что мы не можем просто научить ИИ всегда подчиняться правилу: не причинять вреда людям, поскольку было бы невозможно перечислить все возможные способы причинения вреда людям. Вместо этого Рассел и его коллеги выступают за подход, при котором машины изучают человеческие предпочтения, наблюдая за человеческим поведением. Подобно обучению на примерах, самоуправляемые автомобили учатся, наблюдая, как люди реагируют на различные ситуации на дороге. Однако есть предел тому, сколько можно узнать путем наблюдения, поскольку могут возникать новые ситуации, которые, возможно, не были замечены ранее. С другой стороны, люди, даже с младенчества, способны хорошо обобщать и эффективно реагировать даже на новые ситуации. Пока мы не сможем воспроизвести эту человеческую способность, мы не можем полагаться только на алгоритмы для решения последующих этических проблем. Люди должны быть в курсе. Модели должны быть прозрачными — их выходные данные должны быть интерпретируемыми и должны иметь возможность принимать новые данные от людей и изменять их рекомендации. Люди тоже совершают ошибки, но, возможно, благодаря диалектическому процессу с другими участниками они способны распознавать ошибки и исправлять свои решения. Когда-нибудь алгоритмы тоже могут.
Также опубликовано здесь
Оригинал