Почему ваша стратегия A/B тестирования сломана (и как это исправить)

Почему ваша стратегия A/B тестирования сломана (и как это исправить)

12 августа 2025 г.

Автор:

(1) Даниэль Бизли

  1. Введение

  2. Гипотеза тестирование

    2.1 Введение

    2.2 Байесовская статистика

    2.3 тестируйте мартингингинг

    2.4 P-значения

    2.5 Дополнительная остановка и взгляды

    2.6 Сочетание P-значений и дополнительного продолжения

    2.7 А/б -тестирование

  3. Безопасные тесты

    3.1 Введение

    3.2 Классический T-критерий

    3.3 Безопасный T-критерий

    3.4 χ2 -Test

    3,5 безопасного теста на пропорцию

  4. Безопасное моделирование тестирования

    4.1 Введение и 4.2 реализация Python

    4.3 Comparing the t-test with the Safe t-test

    4.4 Сравнение χ2 -теста с тестом на безопасную пропорцию

  5. Смесь последовательного теста вероятности

    5.1 Последовательное тестирование

    5.2 Смесь SPRT

    5.3 MSPRT и безопасный T-критерий

  6. Онлайн -контролируемые эксперименты

    6.1 Безопасный t-тест на наборах данных OCE

  7. Vinted A/B-тесты и 7.1 Safe T-критерий для Vinted A/B-тестов

    7.2 безопасная пропорция для несоответствия соотношения образца

  8. Заключение и ссылки

1 Введение

Рандомизированные контролируемые исследования (РКИ) являются золотым стандартом для вывода причинно -следственных связей между обработками и эффектами. Они широко применяются учеными, чтобы углубить понимание своих дисциплин. В течение последних двух десятилетий они также обнаружили приложения в цифровых продуктах под названием A/B. A/B -тест - это простой RCT для сравнения эффекта лечения (группа B) с контролем (группа A). Две группы сравниваются со статистическим тестом, который используется для принятия решения о эффекте.

Почти все статистические тесты для A/B-тестов основаны на тестировании с фиксированным омоном. Эта настройка тестирования включает в себя определение количества пользователей, необходимых для тестирования, сбора данных, и, наконец, проанализировать результаты. Тем не менее, этот метод тестирования не совпадает с возможностями в реальном времени современной инфраструктуры данных и желаниями экспериментаторов быстро принимать решения. Недавно разработанные статистические методологии позволяют экспериментаторам отказаться от тестирования с фиксированным человеком и анализировать результаты испытаний в любое время. Этот вывод в любом случае (AVI) может привести к более эффективному использованию экспериментальных ресурсов и более точным результатам испытаний.

Безопасное тестирование - это новая статистическая теория, которая достигает этих целей. Как мы увидим, безопасное A/B -тестирование позволяет экспериментаторам постоянно контролировать результаты своих экспериментов, не увеличивая риск неверных выводов. Кроме того, мы увидим, что для достижения этих результатов требуется меньше данных, чем стандартные статистические тесты. Крупные технологические компании в настоящее время изучают AVI в ограниченных возможностях, но безопасное тестирование превосходит доступные тесты с точки зрения количества выборок, необходимых для выявления значительных эффектов. Это может привести к широкомасштабному внедрению безопасного тестирования для вывода в любое время для результатов теста.

Этот тезис содержит 6 секций. Раздел 2 содержит введение в тестирование гипотез, а также другие статистические концепции, которые имеют отношение к читателю. Это также объясняет, как негибкость классического статистического тестирования вызывает проблемы для практиков. Раздел 3 представляет концепции безопасного тестирования. Кроме того, он получает тестовую статистику для безопасного t-критерия и безопасного теста на пропорцию. Раздел 4 имитирует производительность безопасной статистики и сравнивает их с их классическими альтернативами. В разделе 5 сравнивается безопасное t-критерий с другим популярным тестом в любое время, проверку с последовательным соотношением смеси (MSPRT). Раздел 6 сравнивает безопасное t-критерий и MSPRT в широком спектре онлайн-экспериментальных данных. Наконец, раздел 7 посвящен сравнению безопасных тестов с классическими статистическими тестами на Vinted, крупномасштабной технологической компании.

Эта статья естьДоступно на ArxivПод атрибуцией-некоммерческими показателями 4.0 Международная лицензия.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE