
Понимание p-значений, взглядов и дополнительной остановки в A/B-тестировании
12 августа 2025 г.Таблица ссылок
Введение
Гипотеза тестирование
2.1 Введение
2.2 Байесовская статистика
2.3 тестируйте мартингингинг
2.4 P-значения
2.5 Дополнительная остановка и взгляды
2.6 Сочетание P-значений и дополнительного продолжения
2.7 А/б -тестирование
Безопасные тесты
3.1 Введение
3.2 Классический T-критерий
3.3 Безопасный T-критерий
3.4 χ2 -Test
3,5 безопасного теста на пропорцию
Безопасное моделирование тестирования
4.1 Введение и 4.2 реализация Python
4.3 Сравнение t-теста с безопасным t-тестом
4.4 Сравнение χ2 -теста с тестом на безопасную пропорцию
Смесь последовательного теста вероятности
5.1 Последовательное тестирование
5.2 Смесь SPRT
5.3 MSPRT и безопасный T-критерий
Онлайн -контролируемые эксперименты
6.1 Безопасный t-тест на наборах данных OCE
Vinted A/B-тесты и 7.1 Safe T-критерий для Vinted A/B-тестов
7.2 безопасная пропорция для несоответствия соотношения образца
Заключение и ссылки
2.4 P-значения
P-значение представляет, насколько сильно данные противоречат гипотезе. Небольшое значение p предполагает, что данные не точно представляют гипотезу. P-значения широко используются во всех науках, но настолько неправильно поняты, что Американская статистическая ассоциация опубликовала статью об общих заблуждениях, чтобы облегчить вопросы [WL16]. Одним из популярных заблуждений среди исследователей является то, что P-значение-это вероятность того, что нулевая гипотеза верна. Кроме того, значение p менее 0,05 также часто используется в качестве единственного оправдания для научного вывода. Возможно, самая вопиющая проблема с P-значениями-«Phacking», в котором неблагоприятные данные опущены из анализа, чтобы повлиять на результаты [HEA+15]. Таким образом, из-за их огромной важности в научных публикациях, их потенциале для неверного толкования и их потенциала для злоупотреблений, многие ученые заняли вокальную позицию против P-значений [AGM19], причем более 800 подписавших призвали отменить значения P.
Это привело к повышению мотивации для статистиков разработать новые и улучшенные методы анализа научных данных. Одной распространенной проблемой стала ненадежность статистических результатов в ходе эксперимента.
2.5 Дополнительная остановка и взгляды
В качестве экспериментатора проводит A/B-тест, современная инфраструктура данных позволяет им просматривать результаты в режиме реального времени. У них есть веские причины. Прежде всего, эксперименты дороги для работы. Если целевая метрика эксперимента показывает негативные результаты, может быть давление, чтобы остановить эксперимент, поскольку он стоит деньги. Вторая причина рассмотреть вопрос о прекращении эксперимента, связана с вторичными показателями и метриками ограждения, которые предоставляют дополнительную информацию о возможных причинных факторах гипотезы или непреднамеренных воздействий теста. Если эти показатели показывают негативные результаты, это может указывать на то, что экспериментальная функция имеет непреднамеренные негативные последствия для пользователей. Еще одна причина для мониторинга - проверить размер эффекта для этой функции. Размер эффекта определяет размер выборки и, следовательно, продолжительность времени, в течение которого тест должен работать. Если эффект велик, экспериментатор может предложить остановить эксперимент, поскольку необходимая информация была собрана.
Изучение результатов теста до его завершения, известно как моча, и он имеет непреднамеренные последствия для результатов теста. При стандартном A/B -тестировании Peeking приводит к завышенной ложной положительной скорости для каждой контролируемой метрики. На рисунке 1 показано, как ложная положительная вероятность увеличивается с последовательными видами. Данные получены из одного и того же распределения и протестированы с помощью двухстороннего T-критерия с двумя выборками. Если данные наблюдаются в конце теста, должна быть ложная положительная скорость α. Однако, поскольку каждый взгляд дает новую возможность для ложного положительного, вероятность ложноположительного положителя становится все более и более вероятной на протяжении всего теста.
Ложная положительная вероятность увеличивается на протяжении всего теста, поскольку тест не является безопасным при дополнительной остановке. Другими словами, непрерывно контролировать результаты на рисунке 1, чтобы решить, когда остановить эксперимент, может повлиять на результат теста. Это проблема, для которой идеальным решением является проблема, которая позволяет экспериментатору контролировать свои результаты, сохраняя при этом ложные срабатывания ниже α. Как мы увидим, безопасное тестирование-это решение, которое позволяет выполнять этот непрерывный мониторинг и в любом случае вывод результатов теста.
Автор:
(1) Даниэль Бизли
Эта статья есть
Оригинал