Анализ данных • 03 марта 2023 • 5 мин чтения

Выживет сильнейший: как с помощью A/B‑тестов проверяют гипотезы

A/B-тестирование — инструмент, который помогает точно определить, как изменения продукта повлияют на его качество. Разберём, как проводят такие тесты и что нужно для этого знать.

Что такое A/B-тестирование и кому оно нужно
Какие задачи можно решить с помощью А/В-тестирования
Примеры
Инструменты для анализа и проведения A/B-тестов
Совет эксперта

Что такое A/B‑тестирование и кому оно нужно

А/В-тест — это всегда сравнение двух вариантов продукта. Например, двух дизайнов интерфейса или стилей рекламного баннера. Когда проводят А/В-тест, аудиторию делят на две группы. Первой показывают старый вариант продукта, второй — новый. После эксперимента берут данные о поведении обеих групп и сравнивают их. Сравнение можно провести на глаз, но лучше использовать специальные статистические тесты. Они помогут удостовериться, что разница между поведением пользователей в двух группах — не результат случайного стечения обстоятельств, а объективная реальность.

Чаще всего А/В-тесты используют в маркетинге — там их провести проще всего. Одной части аудитории показывают основной вариант креатива, а другой — альтернативный. В продуктовом менеджменте А/В-тесты используются реже, потому что требуют дорогостоящих доработок продукта.

Суть А/В-тестирования на примере редизайна сайта: сформулировать гипотезу, создать альтернативный вариант дизайна и проверить его на части целевой аудитории

Формат A/B-тестирования не новый. Так можно назвать любой контролируемый эксперимент, для которого собирают данные, например клинические исследования лекарств. Одной группе людей дают лекарство, а другой — плацебо и наблюдают различие в эффекте. Особенность медицинских исследований в том, что у них небольшое количество участников и выборки получаются маленькие. Поэтому медики устанавливают очень высокие требования к статистическим параметрам таких тестов.

В 2008 году этот инструмент использовали во время предвыборной кампании Барака Обамы. Портрет кандидата в президенты разместили на виртуальных билбордах в одной из игр для приставок Xbox.

Рекламу показывали не всем геймерам, а только в 10 штатах, где в 2004 году большинство жителей проголосовали за Джорджа Буша

Через некоторое время Xbox на своём сайте предложил геймерам проголосовать, кого из кандидатов они бы выбрали в президенты. Обама выиграл — из 100 000 респондентов 43% выбрали его. Остальные 57% голосов распределились между другими кандидатами.

Трудно подобрать пример из повседневной жизни, который повторял бы А/В-тест. Для такого исследования нужно множество наблюдений минимум из двух групп и 20–30 событий в каждой. Для бизнеса провести А/В-тест проще — у любого продукта есть целевая аудитория, из которой можно набрать две группы и сравнить их поведение. На курсе «Аналитик данных» студенты практикуются в А/В-тестировании на реальных данных бизнеса.

Какие задачи можно решить с помощью А/В‑тестирования

1. Протестировать новую функцию.
Например, алгоритм рекомендаций ресторанов в приложениях по доставке еды. Допустим, старый алгоритм не учитывает историю заказов пользователя, а новый — учитывает. Продуктовая команда показывает группе А рекомендации старого алгоритма, а группе В — рекомендации нового и смотрит, в какой чаще заказывали еду. Дизайн продукта при этом одинаковый, меняются только предложения.

2. Выбрать эффективный креатив.
К примеру, разные дизайны баннеров или видеорекламы. А/В-тест с креативами можно настроить и отследить в рекламном кабинете или системе аналитики. Для этого нужно запустить две кампании со старым и новым баннером и посмотреть статистику.

В приложении для доставки еды можно протестировать дизайн рекомендаций ресторанов. Например, разработать разные варианты плашек с рекламой, разместить их в интерфейсе и посмотреть, какой дизайн больше привлёк пользователя.

A и B варианты для тестирования карточки товара в приложении: конверсия увеличилась там, где показывали не только блузку, но и то, как человек в ней выглядит

3. Собрать мнения пользователей.
А/В-тест продукта — дорогой проект. На разработку функции, которую нужно тестировать, может уйти целый месяц. Такие расходы оправданы не для каждой задачи.

Чтобы собрать мнение пользователей, можно выбрать более бюджетный вариант исследования. Например, школа иностранных языков хочет внедрить новую функцию на своей онлайн-платформе. Чтобы понять, нравится ли она пользователям, можно задать вопрос в чате учеников. Другой вариант исследования — UX-тестирование. Для пользователей составляют опросники по продукту и собирают от них обратную связь.

Если одинаковая функция есть у всех конкурентов, значит, они уже убедились в том, что она эффективна. Здесь поздно тестировать — нужно изучать, как это работает, и внедрять.

Примеры

Разберём один A/B-тест и три его возможных результата.

Задача — добавить в приложение новую функцию

В приложении-агрегаторе можно узнать информацию о рейсах — сколько лететь, где пересадки, какая погода в городе прибытия. Продуктовые менеджеры решили добавить новые функции и проводят A/B-тест.

На этапе подготовки теста обычно генерируют много разных идей и пытаются заранее оценить, какая из них самая удачная, готова ли команда потратить месяц на разработку и нужно ли вообще проводить тест.

Продуктовые менеджеры решают добавить в приложение онлайн-регистрацию на рейс. Инструмент выглядит многообещающе: пользователю не понадобятся другие сервисы, чтобы планировать перелёты.

Спланировать A/B-тест

A/B-тестирование продукта или отдельной его функции — это всегда задача для команды. Один аналитик здесь не справится. Чтобы протестировать функцию, нужно сначала её разработать:

● подготовить техническое задание;

● отрисовать интерфейс;

● запрограммировать;

● выложить в магазин приложений для пользователей и дождаться одобрения модераторов.

Для разработки и тестирования функции в приложении с перелётами нужен продуктовый менеджер, несколько разработчиков, дизайнер и аналитик. Сначала продуктовый менеджер ставит задачу разработчикам — продумать функциональность и алгоритм, по которому её будут тестировать. Алгоритм будет каждого нового пользователя отправлять в группы А или В в случайном порядке (50/50).

После того как проект согласовали с руководством, задача переходит к аналитику. Он уточняет у продуктовой команды, какой эффект ожидают от новой функции. Например, пользователи будут проводить в приложении на 10% больше времени, чем до внедрения регистрации на рейс. На основе этих данных аналитик считает продолжительность теста и его параметры и вместе с продуктовой командой выбирает время запуска.

Провести A/B-тестирование

После запуска аналитик должен убедиться, что тест идёт корректно — пользователи распределяются по группам, как планировалось. В тесте могут быть ошибки. Например, один пользователь попадает сразу в две группы. В этом случае аналитик останавливает тест, чтобы разобраться в проблеме. Изучает данные по действиям каждого пользователя в двух вариантах приложения и смотрит, где алгоритм мог неверно их обработать. Обсуждает с разработчиками, как исправить ошибку и запуститься снова.

Если данных набралось достаточно, тест тоже могут остановить раньше запланированной даты и перейти к анализу результатов.

Проанализировать результаты

1. Пользователи стали чаще проводить время в приложении.
Обычно продуктовый менеджер формулирует гипотезу, опираясь на свой опыт. Если тестирование прошло успешно, значит, команда тщательно изучила рынок и конкурентов, проанализировала прошлые проекты и придумала действительно полезную функцию.

2. Ничего не изменилось.
В этом случае функцию просто добавляют в приложение. Она не улучшила его, но и хуже не стало. Такой результат получается по итогам большинства А/В-тестов.

3. Снизилась продолжительность сессий, возросло количество отказов.
Не все A/B-тесты заканчиваются удачно. С таким результатом пользователям возвращают старую версию приложения и анализируют, в чём может быть проблема. Например, функция негативно влияет на производительность продукта — замедляет время загрузки страницы на 1 секунду. Даже такая небольшая задержка может снизить важные показатели на 10–15%.

Все А/В-тесты проходят по одной схеме. Если результат покажет, что изменения того стоят, — их внедряют

Инструменты для анализа и проведения A/B‑тестов

Удобнее всего анализировать А/В-тест с помощью языка программирования. Чаще используют Python или R. Если аналитик хорошо понимает, как работают статистические тесты — z-тест, t-тест и тест Манна-Уитни, то он может проанализировать результаты А/В-теста даже с помощью простых инструментов, например статистических онлайн-калькуляторов вроде Mindbox или Excel.

Аналитический инструмент Amplitude позволяет не только проводить A/B-тесты, но и собирать детальную информацию о поведении каждого пользователя на сайте или в приложении

Чтобы провести A/B-тест продукта или его части, нужны инструменты посложнее. Многие компании разрабатывают аналитические системы для A/B-тестов. Такие решения можно настраивать как угодно в зависимости от задачи.

Функции A/B-тестирования есть и в готовых аналитических системах. Они универсальны и подходят в основном для маркетингового анализа и типовых A/B-тестов. Рассмотрим каждую подробнее.

Провести A/B-тест без участия человека не получится. Возможно, в будущем в этом помогут нейросети. Пока что можно попробовать автоматизировать часть теста в маркетинговых задачах. Например, генерировать рекламные слоганы с помощью Chat GPT и проверить, как на них отреагируют пользователи.

Совет эксперта

Вячеслав Зотов
Прежде чем приступать к проведению А/В-тестов, лучше изучить, как работают популярные статистические тесты. Если разобраться, что у них под капотом, то для анализа результатов A/B-тестов можно использовать любые инструменты. Это поможет избежать ошибок при тестировании. Начать можно, например, с z-теста для пропорций — его используют и в продуктовом анализе, и в маркетинге. Тренироваться лучше на больших массивах данных. Например, использовать наборы данных из Kaggle — открытого репозитория, популярного среди аналитиков и специалистов по Data Science.

Статью подготовили:

Вячеслав Зотов

My.Games

Старший аналитик

Александра Патрушева

Яндекс Практикум

Редактор