Обнаружение выбросов с помощью Chi Square
2 ноября 2022 г.Это простой метод обнаружения выбросов, процедура в основном представляет собой квантиль распределения Вейбулла теста хи-квадрат в python.
У нас могут быть небольшие серии данных, такие как запасы, толщина проката и т. д.; иногда данные собираются вручную, и нам необходимо обнаруживать выбросы в качестве первого фильтра, чтобы обнаруживать человеческие ошибки в собранных данных и исправлять их перед анализом, в других случаях данные необходимо разбивать по сезонам, процессам и т. д. р>
Я понимаю, что кластеризация, такая как смесь Гаусса, для обнаружения выбросов или что-то в этом роде для каждой переменной слишком дорого, а вычисление Хи-квадрат дешевле в вычислительном отношении.
Первый вопрос: почему каждая часть этого процесса? Предлагаемый подход к этой проблеме заключается в том, чтобы просто найти ошибку наблюдения, и для этого задача построена на вычислении точности измерения. Процедура состоит из:
- Тест хи-квадрат. Его можно использовать для проверки того, равна ли дисперсия генеральной совокупности заданному значению.
- Распределение Вейбулла: оно также может моделировать искаженные данные.
- Квантильная функция: распределение вероятностей случайной величины.
Мы не можем установить границы выбросов путем расчета межквартильного диапазона, поскольку его можно использовать для продуктов и сезонов разного характера. Но тогда вы можете использовать простой критерий хи-квадрат и искать ошибки наблюдения. Мы можем продолжить как маленький рецепт.
Рецепт:
-
Первый шаг — отображение плотности рассматриваемой переменной.
2. Расчет точности измерения, классическая процедура, представленная в фильтре Калмана, вычитает медиану из значения; я делю значение между медианой, чтобы сделать нормализованную безразмерную меру:
-
Скользящий ряд хи-квадрат (χ2) позволяет нам создавать постоянно обновляемую последовательность хи-квадрат и тем самым получать легко группируемые значения
4. Квантиль (Q); у каждой бизнес-переменной есть свои единственные диапазоны, в этом случае я выбираю квантиль 95°, потому что он должен быть переменной с фиксированным диапазоном.
5. Классифицировать; со значением в Q мы можем классифицировать доходность χ2:
6. Вуала! При этом мы разделяем шум и данные нелинейной переменной:
Здесь мы реализуем очень простой процесс обнаружения выбросов, у него немного больше возможностей; Через несколько дней я напишу еще один пост на эту тему.
исходный код:
https://github.com/devicemxl/Chi-Square-for-Outliers?embedable =правда
Источники и дополнительная литература:
- Исходный набор данных
- Эмпирические методы в Высшей школе Люцерна
- Справочник по статистическим методам
- Введение в статистический контроль качества, ДУГЛАС К. МОНТГОМЕРИ, издание 6°
Вопросы и комментарии всегда приветствуются
Также опубликовано здесь
Оригинал