Остерегайтесь ложных данных

Остерегайтесь ложных данных

4 февраля 2023 г.

<цитата>

Мы верим в Бога, остальное должно приносить данные – W.E. Деминг

Сегодня мы живем в мире, где вы:

* бренд-маркетинг для ваших потребителей; или * политическая партия, ищущая общественной поддержки для изменения политики; или * стартап предлагает потенциальным инвесторам следующий раунд финансирования

вам нужно подкрепить свои утверждения некоторыми данными.

Поэтому нередко встречаются данные, которые каким-либо образом были изменены для проверки достоверности истории.

Уровень 1: неофициальные данные, также известные как благоприятная выборка

Самый простой подход к повествованию – представить очень конкретные анекдотические данные.

Вот пример:

Хотя это отличная история, уникальный опыт Шанкара мало что говорит мне о том, как мог бы выглядеть мой пользовательский опыт.

Уровень 2: Выбор вишен, также известный как благоприятная фильтрация

Что-то немного лучше и менее очевидно, это выборочная/выборочная фильтрация. Представление статистики помогает в некоторой степени узаконить заявление, но те, кто читает мелкий шрифт, быстро убеждаются в обратном.

Уровень 3: сбор данных, также известный как благоприятное секционирование

Ни анекдотические свидетельства, ни придирчивость не сравнимы с коварством того, что я хотел бы назвать Data Groening, потому что они выдумывают парадокс Симпсона, который трудно разобрать, чтобы поддержать ложное повествование. Особенно в контексте статистики Covid я неоднократно видел злонамеренное использование этой тактики.

Парадокс Симпсона

Парадокс Симпсона, впервые описанный Эдвардом Симпсоном и прекрасно объясненный экспертом по причинно-следственным связям Джудеей Перл здесь , является средством секционирования или разбиения базового набора данных таким образом, что результаты становятся обратными. Рассматриваемое разбиение необходимо исследовать на причинно-следственную связь. Если причинно-следственная связь может быть установлена, разделение выполняется. В руках опытного аналитика парадокс Симпсона может быть использован для поддержки ложных нарративов.

Гренинг данных Covid

Скажем, например, что вы против прививок. Вы убеждены, что никто не должен делать прививку от коронавируса, и хотите убедить в этом свою аудиторию.

В массах распространен страх, что вакцинация сама по себе вызовет один ковид.

Чтобы рассеять эти опасения, штат проводит испытания вакцин для ограниченной аудитории, а затем представляет их результаты.

Штат публикует эту информацию:

Около 17 000 человек из разных регионов, возрастных групп и т. д. пола были привиты.

Заболеваемость COVID-19 среди этих вакцинированных лиц в течение 3 месяцев после вакцинации сравнивали с заболеваемостью среди невакцинированных лиц из тех же мест/демографических групп.

Мы отмечаем, что разница в заболеваемости Covid была статистически незначимой.

Результаты опроса представлены здесь.

Мы рекомендуем всем пройти вакцинацию как можно скорее.

Вы вытаскиваете необработанные данные и вот что видите:

Среди тех, кто был вакцинирован, заболеваемость ковидом после вакцинации фактически на 0,02% НИЖЕ, чем у тех, кто не был вакцинирован.

Вы спрашиваете, как это можно изменить?

Через полчаса вы приходите к этому поразительному контрфактику:

Вакцинация может повысить вероятность заражения ковидом на 5–7 %!

Наш анализ данных, предоставленных штатом после испытания вакцины, показывает, что это одинаково для городского и сельского населения.

Обратите внимание:

  1. В совокупности заболеваемость ковидом одинакова независимо от того, вакцинирован человек или нет, т.е. ~6,9% населения
  2. В тот момент, когда мы разделяем городские и сельские районы, вакцинация начинает демонстрировать более высокую частоту положительных результатов после вакцинации в ОБИХ когортах, т. е. в городах: 9,25 % против 8,65 % и в сельской местности: 5,09. % против 4,87%

Здесь нет выборки данных.

Никакая информация не была выборочно исключена.

Все, что вы сделали, это создали раздел, чтобы изменить повествование, которому довольно сложно противостоять.

Simpson's Paradox Gif from Wikimedia

Раздел настоящий?

Суть проблемы сводится к определению причинно-следственной связи.

Есть ли причина, по которой человек, независимо от того, является ли он городским или сельским жителем, должен влиять на свою физиологическую способность заражаться ковидом?

Если ответ НЕТ, то раздел не имеет смысла.

Конечно, есть настоящие разделы.

Наилучшим примером является иск Калифорнийского университета в Беркли о гендерных предрассудках

В этом случае, если разделение было по возрасту, возможно, стоит присмотреться (поскольку хорошо известно, что влияние covid зависит от возраста):

Наконец появляется какое-то объяснение. Возможно, что люди моложе 60 лет, представляющие трудоспособное население, потеряли бдительность и вернулись к работе/начали путешествовать после вакцинации, что привело к небольшому увеличению заболеваемости. Когорта старше 60 лет продолжала сохранять бдительность, и заболеваемость коронавирусом снизилась.

По крайней мере, в Твиттере я вижу только одного действительно остроумного человека, неоднократно называющего ложные разделы, когда дело доходит до анализа covid:

https://pic.twitter.com/QuWQMIueW4?embedable=true

<цитата>

ПОСЛЕДНЯЯ ГЛУПОСТЬ 20221 года1/ Великая Эпоха, отчет о заговоре, утверждает, что форсированные заявления хуже, чем навощенные & сообщают заявления Роберта Мэлоуна о неэффективности вакцин. Затем предоставьте данные, показывающие ЭФФЕКТИВНОСТЬ прививки (снижение смертности до 92 %), и они подпадают под парадокс Симпсона.

— Нассим Николас Талеб (@nntaleb), 31 декабря 2022 г.

Как избежать непреднамеренного грейнинга

Каждая точка данных имеет гораздо более длинный список функций/атрибутов, чем раньше, что делает даже ревностного аналитика данных склонным к непреднамеренному грёнингу.

Вот несколько вещей, которые можно сделать, чтобы избежать непреднамеренного грининга:

<сильный>1. Инверсия

Переверни свою нулевую гипотезу и попробуй доказать ее.

<сильный>2. Экономичные разделы

Если вы не можете понять, почему раздел приводит к нелогичным результатам, изучите или избегайте этого раздела.

<сильный>3. Будьте проще

Создавайте и эксплуатируйте простые модели, насколько это возможно, чтобы сохранялась объяснимость.

<сильный>4. Измеряйте то, что имеет значение

Соберите как можно больше данных, относящихся к релевантным/причинным признакам. Избегайте искушения создавать дополнительные функции только потому, что данные были собраны, если нет ясности в отношении причинно-следственной связи.


Также опубликовано здесь.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE