AB-тестирование цифровых продуктов

AB-тестирование цифровых продуктов

20 марта 2023 г.

Что такое тест AB?

AB-тестирование — отличный способ повысить эффективность веб-страницы, приложения или любого другого цифрового продукта. AB-тестирование позволяет компаниям тестировать и проверять идеи по изменению продукта, а не внесение изменений только на основе предположений или интуиции.

В тесте A/B два варианта цифрового продукта (A и B) сравниваются друг с другом, показывая каждый вариант случайно выбранной группе пользователей и оценивая их реакцию.

AB-тестирование используется во многих различных отраслях для улучшения взаимодействия с пользователем. Вот три примера отраслей, в которых часто используется AB-тестирование:

  1. Разработка программного обеспечения и мобильных устройств. Разработчики используют AB-тестирование для тестирования различных вариантов программного обеспечения или мобильное приложение, чтобы определить, какая версия работает лучше.
  2. Цифровой маркетинг. Тестируя разные версии объявлений, маркетологи могут определить, какие объявления наиболее эффективны с точки зрения привлечения пользователей.
  3. Дизайн взаимодействия с пользователем (UX). Дизайнеры UX используют AB-тестирование для тестирования различных версий макетов веб-сайтов, дизайнов кнопок и меню навигации для оптимизации взаимодействия с пользователем.

Каковы этапы тестирования AB?

Представьте, что у нас есть мессенджер. Он работает хорошо, и наши существующие клиенты вполне довольны. Менеджер выдвигает идею, что, по его мнению, пользователям больше понравилось бы приложение, если бы основной цвет был синим, а не зеленым. Конечно, менеджер — умный профессионал, однако мы не хотим вносить такие огромные изменения в приложение, основываясь только на его «чувстве». Чтобы проверить правильность «чувства» менеджера, мы должны провести тест AB.

Вот 6 этапов процесса AB-тестирования:

  1. Формируйте свои гипотезы

Во-первых, нам нужно сформировать наши гипотезы, которые будут проверены с помощью теста AB.

В описанном выше случае мессенджера у нас будут следующие гипотезы:

H0: пользователям Messenger не будет удобнее работать с приложением, если оно будет окрашено в синий цвет.

H1: пользователям Messenger будет удобнее работать с приложением, если оно будет выделено синим цветом.

Цель теста AB будет состоять в том, чтобы найти доказательства H1. Если доказательств достаточно, мы отклоним нулевую гипотезу H0 и придем к выводу, что цвет приложения мессенджера должен измениться на синий.

  1. Выберите правильный показатель успеха

Во-вторых, нам нужно выбрать числовую метрику, которая будет представлять «успех» изменения. Это может быть количество активных пользователей, конверсий, кликов или любой другой показатель, отражающий успех бизнеса.

В случае с мессенджером, описанном выше, мы можем выбрать в качестве метрики успеха любую метрику, которая показывает, насколько пользователи довольны приложением.

Некоторые примеры показателей успеха:

  • Количество активных пользователей в день (или любой другой период).
  • Количество сообщений, отправляемых одним пользователем в день (или любой другой период).
  • Количество минут, проведенных пользователем в приложении в день (или любой другой период).
  • И так далее.

Все эти показатели отражают удовлетворенность пользователей приложением, и мы можем выбрать любой из них для теста AB. Выберем второй - количество сообщений, отправляемых одним пользователем в неделю.

  1. Выберите уровень значимости

Статистически говоря, уровень значимости представляет собой вероятность отклонения нулевой гипотезы, когда она действительно верна ( ошибка I рода). Проще говоря, уровень значимости — это мера того, сколько доказательств требуется, чтобы отвергнуть нулевую гипотезу. Чем ниже уровень значимости, тем больше доказательств требуется для отклонения нулевой гипотезы.

Выбор подходящего уровня значимости зависит от проблемы, которую мы хотим решить с помощью теста AB. Обычно используется уровень значимости 5%, что означает, что мы готовы принять 5%-й шанс отвергнуть нулевую гипотезу, когда она верна. Однако если предлагаемое изменение имеет большое значение, и мы опасаемся ошибки, то в таком случае можно использовать более жесткий уровень значимости, например, 1%.

Для мессенджера возьмем уровень значимости 5%.

  1. Дизайн контрольной и экспериментальной групп

После выбора метрики успеха и уровня значимости нам нужно создать 2 случайные группы пользователей. Одна группа будет называться «контрольная выборка», а другая – «опытная выборка». Контрольный образец будет иметь старую версию приложения, веб-сайта или программного обеспечения, тогда как экспериментальный образец будет иметь новую версию с предложенными изменениями. В мессенджере контрольный образец будет иметь старый зеленый интерфейс, а экспериментальный образец - новый синий вариант.

Размер выборки зависит от нескольких факторов:

  • Уровень значимости: чем ниже уровень значимости, тем больше доказательств нам нужно, чтобы отвергнуть нулевую гипотезу, поэтому требуется больший размер выборки.
  • Дисперсия метрики. Чем выше вариабельность метрики, тем больше шума будет в результатах, поэтому требуется больший размер выборки.
  • Длительность теста AB: чем быстрее нам нужно получить результаты, тем больше доказательств мы хотим собрать за единицу времени, и поэтому требуется большая выборка.

В общем, чем больше размер выборки, тем лучше, поскольку вы собираете больше доказательств и повышаете надежность результатов теста AB. Однако на практике у нас могут быть некоторые ограничения на размер выборки, так как большие размеры выборки обычно требуют больше ресурсов и сопряжены с большими рисками. Например, в случае с мессенджером, если мы сделаем выборку из 1% пользователей, это может быть нормально. Однако создание выборки из 30% пользователей сопряжено с большими рисками. Что, если пользователям не понравится синий цвет приложения, и они перестанут им пользоваться? В этом случае мы несем высокие бизнес-риски.

Чтобы рассчитать правильный размер группы, мы можем использовать статистические калькуляторы мощности или проконсультироваться со статистиком.

Кроме того, важно отметить, что количество групп не обязательно должно быть равно двум. В описанном выше случае нужны только две группы, так как тестируется только один цвет. Однако, если мы хотим протестировать больше цветов, можно создать дополнительные тестовые группы.

  1. Внесите изменение в экспериментальную группу

На этом этапе нам нужно внести изменение в экспериментальную группу. Сложность этого шага зависит от вашего приложения или программного обеспечения, если оно имеет какую-либо техническую и методологическую основу для проведения A/B-тестов. Иногда с технической точки зрения сложно или даже невозможно представить другую версию приложения или программного обеспечения случайному набору пользователей.

  1. Измеряйте результаты

По прошествии некоторого времени вы вычисляете распределение метрик для контрольной и экспериментальной групп. Если распределение показателей в контрольной выборке существенно отличается от распределения в экспериментальной выборке, то нулевую гипотезу можно отклонить.

Значимость разницы можно проанализировать с помощью онлайн-калькуляторов или языков программирования, таких как Python или R. Если мы хорошо разбираемся в статистике, мы можем сделать это даже вручную. В зависимости от контекста можно использовать следующие тесты: z-критерий, t-критерий и критерий Манна-Уитни.

Допустим, в случае мессенджера мы сделали контрольную и экспериментальную группы и тестировали группы в течение 1 недели. Через 1 неделю мы рассчитали выбранную метрику, количество сообщений, отправляемых в неделю, для каждого пользователя в каждой выборке. В результате мы визуализируем распределения контрольной группы и экспериментальной группы, подобные графику, показанному на рисунке ниже. Серое распределение относится к контрольной группе, а желтое — к экспериментальному образцу.

Control vs Experiment Sample Distribution

Перехват между распределениями представляет собой уровень достоверности. Чем меньше перехват, тем больше различаются распределения. Ранее мы выбрали доверительный уровень 5%. Поэтому, чтобы отклонить нулевую гипотезу, нам нужно, чтобы перехват был равен или меньше 5% площади распространения. Перехват на картинке выглядит более чем на 5%, поэтому у нас недостаточно доказательств, чтобы отвергнуть нулевую гипотезу. Цвет приложения останется зеленым.

Важные моменты, которые следует упомянуть о тестах AB

Чтобы провести эффективное AB-тестирование, следует помнить о нескольких рекомендациях.

Во-первых, важно иметь четкую гипотезу или цель для теста — чего вы пытаетесь достичь с помощью вносимых изменений? Это поможет вам оценить успешность теста и принять взвешенное решение на основе данных.

Во-вторых, важно тестировать одну переменную за раз. Если вы измените слишком много вещей одновременно, будет сложно определить, какое изменение оказало наибольшее влияние на результаты. Тестируя одну переменную за раз, вы можете изолировать влияние каждого изменения и измерить его влияние на взаимодействие с пользователем.

В-третьих, важно собрать достаточно данных для принятия обоснованного решения. Это означает проведение теста в течение достаточно длительного периода времени, чтобы убедиться, что у вас есть статистически значимый размер выборки. В зависимости от посещаемости вашего веб-сайта или приложения это может занять от нескольких дней до нескольких недель.

В-четвертых, важно иметь независимые группы. Это означает, что каждый пользователь может состоять только в одной из групп. Кроме того, пользователи одной из групп не должны влиять на пользователей другой группы.

Заключение

В заключение, AB-тестирование — это мощный инструмент для оптимизации цифровых продуктов и улучшение пользовательского опыта. Тестируя различные версии продукта и оценивая их влияние на поведение пользователей, компании могут принимать решения на основе данных, чтобы повысить коэффициент конверсии и достичь своих целей.

Я считаю АБ-тестирование искусственным аналогом эволюции. С помощью тестов AB вы вносите изменения для небольшой части ваших пользователей (например, мутации, происходящие у видов животных), и если изменение оказывается успешным, вы представляете его всем пользователям.


Оригинал
PREVIOUS ARTICLE
NEXT ARTICLE