
Почему безопасные t-тесты превосходят классические методы в крупномасштабных экспериментах
12 августа 2025 г.Таблица ссылок
Введение
Гипотеза тестирование
2.1 Введение
2.2 Байесовская статистика
2.3 тестируйте мартингингинг
2.4 P-значения
2.5 Дополнительная остановка и взгляды
2.6 Сочетание P-значений и дополнительного продолжения
2.7 А/б -тестирование
Безопасные тесты
3.1 Введение
3.2 Классический T-критерий
3.3 Безопасный T-критерий
3.4 χ2 -Test
3,5 безопасного теста на пропорцию
Безопасное моделирование тестирования
4.1 Введение и 4.2 реализация Python
4.3 Сравнение t-теста с безопасным t-тестом
4.4 Сравнение χ2 -теста с тестом на безопасную пропорцию
Смесь последовательного теста вероятности
5.1 Последовательное тестирование
5.2 Смесь SPRT
5.3 MSPRT и безопасный T-критерий
Онлайн -контролируемые эксперименты
6.1 Безопасный t-тест на наборах данных OCE
Vinted A/B-тесты и 7.1 Safe T-критерий для Vinted A/B-тестов
7.2 безопасная пропорция для несоответствия соотношения образца
Заключение и ссылки
8 Заключение
Многие проблемы с P-значениями и их интерпретацией заставили статистиков искать новые методы обнаружения информации. Классические статистические тесты не могут удовлетворить общие методы исследования, такие как ранняя остановка или дополнительное продолжение экспериментов. Это несоответствие становится все более заметным с современными технологическими процессами, которые позволяют частые статистические данные данных. Статистические объекты, такие как тестовые маркингелы и байесовские факторы, рассматривают повышенное принятие в качестве более безопасных, более интуитивных методов тестирования гипотез. В этом тезисе мы изучили безопасное тестирование как решение для удовлетворения потребностей практикующих. В частности, мы сосредоточились на выявлении небольших размеров эффекта, общих для A/B-тестирования в крупномасштабных технологических компаниях.
Безопасный T-тест был введен в качестве заменителя в любое время для классического t-критерия. Было показано, что безопасное t-критерий использует в среднем меньше данных для отклонения нулевой гипотезы. Эффективность безопасного t-критерия была продемонстрирована для широкого спектра величин эффекта, уровней значимости и статистических способностей. По данным реального мира, остаются расхождения между эффектами, обнаруженными с помощью Safe T-критерия и классическим t-критерием. Эффекты новизны могут привести к увеличению количества ложных срабатываний, в то время как партийная обработка увеличивает количество ложных негатив. Существуют также соображения в задержке между временем экспозиции теста и реализацией. Это заставляет нас предположить, что идеальный сценарий для безопасных t-тестов на крупномасштабных экспериментальных платформах находится в деталях, которые легко доступны. Целевая метрика A/B -теста часто представляет собой медленную метрику, предназначенную для улучшения общей производительности платформы ее пользователей. Вторичные и огражденные метрики могут быть измерены и проанализированы гораздо быстрее. Эти показатели являются идеальными кандидатами на безопасные тесты, чтобы постоянно контролировать производительность A/B -теста.
Производительность безопасного T-теста была строго по сравнению с MSPRT. Посредством обширного моделирования и сравнительного анализа в реальных наборах данных было обнаружено, что безопасный T-критерий превосходит MSPRT во всех ситуациях. Это должно побудить практикующих принять безопасный T-критерий в качестве предпочтительного теста в любое время.
БЕЗОПАСНЫЙ Тест на пропорцию также был подтвержден в качестве теста в любое время для таблиц на случай непредвиденных обстоятельств. Благодаря моделированию было обнаружено, что безопасная пропорция требует меньше данных для принятия решения, чем тест χ2, в среднем. Тесты значительно согласуются с реальными данными для обнаружения несоответствия соотношения выборки. В результате в полной мере воспользоваться современной инфраструктурой данных, принятие теста на безопасную долю для обнаружения SRM будет продолжаться на Vinted.
Несмотря на эффективность безопасного тестирования, он, вероятно, потребует времени и настойчивости от имени своих сторонников, прежде чем оно достигнет широкомасштабного усыновления. Самая большая задача - обучать практикующих, знакомых с классической статистикой. Концепции, представленные в этом тезисе, требуют более высокого уровня статистических знаний, чем общие для большинства ученых и экспериментаторов A/B. Если практикующий врач, использующий безопасный тест, получает другой результат, чем классическая альтернатива, нет интуитивного способа объяснить эту разницу. И наоборот, практикующим врачам может быть легче концептуально понимать электронные различия. Из-за их внутренней интерпретации в качестве доказательства против нулевой гипотезы, E-variables, кажется, легче понять, чем p-значения. Учитывая широкое неверное толкование значений P, электронные вариблы могут дать экспериментаторам лучшее понимание их результатов.
Хотя есть проблемы, мы по -прежнему оптимистичны в отношении будущих применений безопасного тестирования. Он отвечает потребностям экспериментаторов, которые нуждаются в гибких сценариях тестирования на основе наблюдаемых доказательств. Кроме того, исследования в области E-varables продолжают развиваться, что приведет к более безопасным тестам и лучшему образованию. Благодаря пакетам, доступным как в R, так и в Python, практикующим стало легче представить безопасное тестирование в своих экспериментах. По этой причине мы считаем, что безопасное тестирование будет размножаться как методология тестирования в любое время.
Ссылки
[AGM19] Валентин Амрхейн, Сандер Гренландия и Блейк МакШейн. «Ученые поднимаются против статистической значимости». поступка В: Nature 567.7748 (март 2019 г.), с. 305–307.
[Aze+20] Эдуардо М. Азеведо, Алекс Денг, Хосе Луис Монтиэль Олеа, Джастин Рао и Э. Глен Вейл. «A/B -тестирование с толстыми хвостами». В: Журнал политической экономии 128.12 (декабрь 2020 г.). doi: 10.1086/710607.
[Ден+13] Алекс Денг, Я Сюй, Рон Кохави и Тоби Уокер. «Улучшение чувствительности онлайн-контролируемых экспериментов за счет использования данных перед экспериментами». В кн.: Материалы Шестой Международной конференции ACM по поиску веб -поиска и интеллектуального анализа данных. 2013, с. 123–132.
[GHK23] Питер Грюнвальд, Рианн де Хейде и Вутер Коулен. Безопасное тестирование. 2023. Arxiv: 1906.07801 [Math.st].
[GLW18] Квентин Ф. Гронау, Александр Ли и Эрик-Ян Вагенмакерс. Информированные байесовские T-тесты онлайн приложение. 2018. Arxiv: 1704.02479 [stat.me]. URL: https: //www.tandfonline.com/doi/suppl/10.1080/00031305.2018.1562983? Scroll = Top & Role = Tab.
[Hea+15] Megan L Head, Luke Holman, Rob Lanfear, Andrew T Kahn, and Michael D Jennions. “The extent and consequences of p-hacking in science”. en. In: PLoS Biol. 13.3 (Mar. 2015), e1002106. [HR18] N A Heard and P Rubin-Delanchy. “Choosing between methods of combining pvalues”. In: Biometrika 105.1 (Jan. 2018), pp. 239–246. doi: 10.1093/biomet/ asx076. url: https://doi.org/10.1093%2Fbiomet%2Fasx076.
[Joh+17] Рамеш Джохари, Пит Кумен, Леонид Пекелис и Дэвид Уолш. «Заглядывая в A/B -тесты: почему это важно и что с этим делать». В: август 2017, с. 1517–1525. ISBN: 978-1-4503-4887-4. doi: 10.1145/3097983.3097992.
[Liu+22] C. H. Bryan Liu, ângelo Cardoso, Пол Кутюрье и Эмма Дж. Маккой. Наборы данных для онлайн -контролируемых экспериментов. 2022. Arxiv: 2111.10198 [stat.ap].
[LR05] Э. Л. Леманн и Джозеф П. Романо. Тестирование статистических гипотез. Третий. Спрингерские тексты в статистике. Нью -Йорк: Springer, 2005, с. XIV+784. ISBN: 0-387-98864-5.
[LTT20] Александр Ли, Роберт Тернер и Йорис Тер Шуре. R-Package SafeStats. https: //github.com/alexanderlynl/safestats. 2020.
[Pér+22] Мюриэль Фелипе Перес-Ортиз, Тайрон Ларди, Ринн де Хейде и Питер Грюнвальд. Электронная статистика, групповая инвариантность и в любое время действительное тестирование. 2022. Arxiv: 2208. 07610 [Math.st].
[SA23] Mårten Schultzberg и Sebastian Ankargren. Выбор последовательной структуры тестирования - сравнения и дискуссии. Доступ: 2023-07-04. Февраль 2023 г. URL: https://engineering.atspotify.com/2023/03/Choing- SecredentialTesting-Framework-comparisons-and Диск.
[SHA+11] Гленн Шафер, Александр Шен, Николай Верешчагин и Владимир ВОВК. «Тестируйте мартингинглы, байесовские факторы и P-значения». В: Статистическая наука 26.1 (февраль 2011 г.). doi: 10.1214/10- STS347. URL: https://doi.org/10.1214%2F10- STS347.
[TLG22] Розанна Тернер, Александр Ли и Питер Грюнвальд. Общие электронные разнообразные для точных последовательных тестов K-выборки, которые допускают дополнительную остановку. 2022. Arxiv: 2106.02693 [stat.me].
[TUR19] Розанна Дж. Тернер. «Безопасные тесты для 2 x 2 таблиц непредвиденных обстоятельств и тест Cochranmantel-Haenszel». В: (2019).
[VIL39] J. Ville. Étude critique de la intion de collectif, par jean ville ... gauthiervillars, 1939. url: https://books.google.lt/books?id=ztjksweacaj.
[Wal45] A. Wald. «Последовательные тесты статистических гипотез». В: Анналы математической статистики 16.2 (1945), с. 117–186. ISSN: 00034851. URL: http: // www.jstor.org/stable/2235829 (посещение 04.04.2023).
[WL16] Рональд Л. Вассерштейн и Николь А. Лазар. «Заявление ASA о P-значениях: контекст, процесс и цель». В: Американский статистик 70.2 (2016), с. 129–133. doi: 10.1080/00031305.2016.1154108. eprint: https: // doi. org/10.1080/00031305.2016.1154108. URL: https://doi.org/10.1080/ 00031305.2016.1154108.
[WW48] A. Wald и J. Wolfowitz. «Оптимальный символ теста коэффициента последовательного вероятности». В: Анналы математической статистики 19.3 (1948), с. 326–339. DOI: 10.1214/AOMS/1177730197. URL: https://doi.org/10.1214/ AOMS/1177730197.
[Xu+22] Ziyu Xu, Luke Sonnet, Umashanthi Pavalanathan и Brent Cohn. «Оценка эффективности безопасного, в любом случае с выводом (SAVI) для обнаружения несоответствия соотношения выборки в Твиттере». В: (2022).
Автор:
(1) Даниэль Бизли
Эта статья есть
Оригинал