Что наборы данных OCE обучают нас статистическим тестированию в экспериментах A/B

Что наборы данных OCE обучают нас статистическим тестированию в экспериментах A/B

12 августа 2025 г.
  1. Введение

  2. Гипотеза тестирование

    2.1 Введение

    2.2 Байесовская статистика

    2.3 тестируйте мартингингинг

    2.4 P-значения

    2.5 Дополнительная остановка и взгляды

    2.6 Сочетание P-значений и дополнительного продолжения

    2.7 А/б -тестирование

  3. Безопасные тесты

    3.1 Введение

    3.2 Классический T-критерий

    3.3 Безопасный T-критерий

    3.4 χ2 -Test

    3,5 безопасного теста на пропорцию

  4. Безопасное моделирование тестирования

    4.1 Введение и 4.2 реализация Python

    4.3 Сравнение t-теста с безопасным t-тестом

    4.4 Сравнение χ2 -теста с тестом на безопасную пропорцию

  5. Смесь последовательного теста вероятности

    5.1 Последовательное тестирование

    5.2 Смесь SPRT

    5.3 MSPRT и безопасный T-критерий

  6. Онлайн -контролируемые эксперименты

    6.1 Безопасный t-тест на наборах данных OCE

  7. Vinted A/B-тесты и 7.1 Safe T-критерий для Vinted A/B-тестов

    7.2 безопасная пропорция для несоответствия соотношения образца

  8. Заключение и ссылки

6 онлайн -контролируемые эксперименты

Поскольку A/B -тестирование увеличилось, новые статистические методологии аналогично пролиферировали. Методы уменьшения дисперсии, такие как Cuped [DEN+13] и новые статистические тесты, такие как MSPRT [JOH+17], стали стандартными методами в различных технологических компаниях. Ландшафт A/B -тестирования становится все более переполненным инновационными методами, но не существует эталона, с которым можно легко сравнивать и сопоставить их. Чтобы решить эту проблему, исследователи из Императорского колледжа Лондона собрали серию наборов данных для онлайн -контролируемых экспериментов (OCE) [LIU+22]. Эти наборы данных содержат реальные данные из рандомизированных контролируемых испытаний, проведенных в Интернете, а также некоторых синтезированных результатов. В совокупности, известные как наборы данных OCE, их можно использовать для сравнения и сравнения новых методов для проведения A/B -тестов.

Наборы данных OCE представляют собой таксономию из 13 анонмизированных наборов данных, найденных в Интернете. Наборы данных содержат ежедневные снимки четырех показателей, измеренных на 78 экспериментах и до трех вариантов. Данные из экспериментов могут быть бинарными, целочисленными или реальными, что позволяет тестировать широкий спектр статистических методологий.

Потенциальным вариантом использования для наборов данных OCE является сравнение дополнительных методов остановки, поскольку вновь разработанные методы могут иметь нереальные предположения для обеспечения достоверности их результатов. Доступность ежедневных снимков в наборах данных означает, что можно применять полу-последовательный подход к тестированию. В статье MSPRT сравнивается с классическим t-критерием для проверки теста на наборах данных OCE. В таблице 4 показаны результаты.

Table 4: Decisions of the mSPRT and the classical t-test on the OCE datasets.

В этом разделе безопасный T-критерий будет проводиться на сборе наборов данных OCE, а также результаты по сравнению как с классическим t-критерием, так и с MSPRT.

6.1 Безопасный t-тест на наборах данных OCE

Чтобы сравнить производительность безопасного T-теста, мы можем сравнить его результаты с t-тестом. Как мы видели на рисунке 4 (справа), два теста не всегда достигают одного и того же вывода для каждого набора данных. Однако, поскольку t-критерий является наиболее широко используемым статистическим тестом для A/B-тестирования, важно противопоставить результаты, чтобы понять ситуации, в которых различаются результаты. В таблице 5 показаны результаты t-критерия и безопасное t-критерий на сборе наборов данных OCE.

Table 5: Decisions of the safe t-test and the classical t-test on the OCE datasets.

Безопасный T-тест обнаруживает гораздо больше эффектов, чем классический T-критерий. Хотя теоретически, ложная положительная скорость безопасного t-критерия должна быть ниже α, кажется маловероятным, что все эти отказа от H0 соответствуют истинным эффектам. После анализа поведения E-значений в ходе этих экспериментов мы пришли к выводу, что большое количество отказов H0, вероятно, связано с эффектом новизны. Как упоминалось ранее, эффект новизны относится к повышению внимания к этой функции вскоре после ее выпуска. Результатом является то, что предположение о независимых и одинаковых распределенных данных нарушается, с доказательствами против нулевой гипотезы быстро накапливаться. Для теста с фиксированной выборкой это не менее проблема, поскольку распределение возвращается в течение эксперимента. Тем не менее, для безопасных тестов это может привести к отказу от H0 до того, как будет определено истинное влияние функции. Этот факт особенно актуален для практиков, стремящихся реализовать статистическое тестирование в любое время. Затем, в таблице 6, мы сравниваем безопасное тест и MSPRT на наборах данных OCE.

Table 6: Decisions of the safe t-test and the mSPRT on the OCE datasets.

Неудивительно, что учитывая поведение, наблюдаемое на рисунке 8, нулевые гипотезы, отвергнутые MSPRT, также отвергаются безопасным t-критерием. Тем не менее, безопасное тест отклоняет даже больше гипотез, чем MSPRT. Вероятно, это связано с тем, что безопасный тест более чувствителен, чем MSPRT, и более сильно реагирует на данные, которые противоречат нулевой гипотезе. В следующем разделе мы продолжаем анализировать производительность безопасных тестов в крупномасштабной технологической компании, Vinted.

Автор:

(1) Даниэль Бизли


Эта статья естьДоступно на ArxivПод атрибуцией-некоммерческими показателями 4.0 Международная лицензия.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE