Почему данные лежат (и ваша модель тоже): любопытный случай парадокса Симпсона

13 июня 2025 г.

Мир, который мы знаем сегодня, процветает на данных. От самой простой системы подачи заявок в стойке корпоративного помощника до подводных центров обработки обработки данных, в которых хранятся петабайты информации, данные теперь поддерживают огромную часть мировой технологии. Учитывая, насколько это центральное место для нашей жизни, давайте потратим пару минут, чтобы исследовать что -то интересное.

Всем управляемым данных, хакерам продуктов и машинному обучению

Что если я скажу вам, что две группы могут показать тренд, но когда вы их объединяете, эта тенденция меняется?

Это не ошибка данных. Это особенность.

Добро пожаловать в парадокс Симпсона - где условные вероятности и предельные вероятности живут очень, очень разные жизни.

Сказка о двух отделениях

Давайте поиграем с статистикой приема вымышленного университета, чтобы установить предпосылку.

Вот сбой:

Отделение	Пол	Кандидаты	Допущенный	Коэффициент приема
А	Женщины	20	19	95%
А	Мужчина	100	90	90%
Беременный	Женщины	180	9	5%
Беременный	Мужчина	100	10	10%

С первого взгляда, женщины опережают мужчин в департаменте А и немного не работают в департаменте Б. До сих пор, так хорошо. Но что происходит, когда мы увеличиваем масштаб и смотрим на общие показатели приема в университет?

Мужчины: 100 принято из 200 кандидатов → 50%.
Женщины: 28 поступили из 200 кандидатов → 14%.

Эти данные не являются неточными, но этоявляетсявводя в заблуждение.

Подожди - как?

Потому что условные вероятности не всегда хорошо играют с предельными итогами.

В статистических терминах:
Условная вероятностьP (допустимая женщина, отдел)вышеP (принимая мужчина, отдел)В отделе А, но это преимущество уничтожается, когда мы все объединяем, потому что различные размеры группы.

Это парадокс Симпсона в действии.

Давайте (небрежно) математику это

Вот интуиция:

Женщины в основном применялись в департаменте B, где у всех были низкие шансы на поступление.
Мужчины в основном применялись к департаменту А, где показатели принятия были высокими.

Таким образом, когда вы собираете цифры, производительность на уровне группы утопляется от скрывающейся переменной-в данном случае, выбором департамента, который действует в качестве озадарителя.

Это переворачивает предельные вероятности:

P (допустимая женщина) <p (допустимый мужчина)

…Несмотря на то:

P (допустимая женщина, а)> p (допустимый мужчина, а)
P (допустимая женщина, б) <p (принимайте ∣male, b)

На простом английском: агрегированные данные скрывают истины подгруппы.

Почему инженеры должны заботиться

«Круто читайте, но я строю API, а не системы приема. Почему я должен заботиться?»

Потому что этот точный парадокс может проникнуть в каждую часть вашего трубопровода.

Тест A/B показывает конверсионный подъем? Этот лифт может исчезнуть при расщеплении устройства или региона.
Ваша модель работает лучше для группы А? Может быть, только потому, что у группы B было меньше образцов или более шумных данных.
Ваш ИИ рекомендует лечение, кредиты или рабочие места? Это может оптимизировать для вводящих в заблуждение средних значений и совершенно мисс справедливости на уровне группы.

Другими словами, вы можете отправлять функции, оптимизированные для неправильных метрик.

За пределами статистики - когнитивная ловушка

Выходя из туфель статистика, парадокс Симпсона также можно рассматривать как не просто математический трюк. Это когнитивная ловушка.
Люди и в основном модели машинного обучения, как правило, предполагают, что если что -то верно по частям, оно должно быть правдой и во всем. Но, увы, парадокс Симпсона окрашивает нам другую историю, на самом деле, полная противоположность. Это напоминает нам, что нам не нужно просто больше данных - нам нужен правильный объектив, чтобы интерпретировать его.

Последствия в 2025 году

Теперь мы живем в мире, где системы ИИ:

Сделайте рекомендации по найму,
Ранжировать студентов по стипендиям,
Обнаружить мошенничество и оценить кредитоспособность.

И эти системы часто обучаются массовым агрегированным наборам данных. И это потенциально может быть опасным. Если модели не чувствительны к скрытым нарушителям, они в конечном итоге усиливают дискриминационные закономерности, ошибку корреляцию для причинно -следственной связи и, что более важно, делают статистически «правильные», но этически неправильные решения.

Пусть парадокс Симпсона служит мягким подталкиванием: при работе с данными никогда не соглашайтесь на вид поверхности. Посмотри глубже. Вопрос о заполнителях. Найдите контекст.

Потому что иногда правда прячется в разделении.

Оригинал

Почему данные лежат (и ваша модель тоже): любопытный случай парадокса Симпсона

Сказка о двух отделениях

Давайте (небрежно) математику это

Почему инженеры должны заботиться

За пределами статистики - когнитивная ловушка

Последствия в 2025 году

🔥 Популярное на этой неделе

8 проектов с открытым исходным кодом, которые помогут вашему бизнесу работать эффективно

Marvel’s Wolverine: все, что мы знаем об эксклюзиве для PS5 на данный момент

Новые фильмы Netflix 2023 года: самые большие оригинальные фильмы, выходящие на стример

Новые фильмы 2023 года: самые крупные предстоящие релизы скоро появятся в кинотеатрах

Как начать дружбу с Selenide

⭐ Самое популярное

Marvel’s Wolverine: все, что мы знаем об эксклюзиве для PS5 на данный момент

Новые фильмы 2023 года: самые крупные предстоящие релизы скоро появятся в кинотеатрах

8 проектов с открытым исходным кодом, которые помогут вашему бизнесу работать эффективно

4 признака того, что ваш Instagram взломали (и что делать)

Новые фильмы Netflix 2023 года: самые большие оригинальные фильмы, выходящие на стример

Categories