Как интерпретировать результаты A/B-тестов
Ошибкой будет считать победой любую разницу в цифрах. Если оценивать только «на глаз», это означает продолжение интуитивного подхода. Между тем здесь требуется математическая точность и уверенность в результатах настолько, насколько это возможно.
Как найти нужные показатели
Для проверки любой гипотезы вам нужно выписать из итогового отчёта ровно два показателя по каждой группе (А и Б):
- Объем выборки (Size). Сколько писем было успешно доставлено в эту группу.
- Количество конверсий. Сколько человек совершили целевое действие:
- если тестировали тему — это количество открытий;
- если тестировали кнопку или оффер — это количество кликов;
- если тестировали продажи — это количество заказов.
На основе этих данных можно сравнить эффективность вариантов и понять, какой из них показал лучший результат.
Пример данных:
- группа А — 5 000 писем, 100 кликов (CTR 2%);
- группа Б — 5 000 писем, 125 кликов (CTR 2,5%).
Кажется, что вариант Б лучше на 25%. Однако у нас пока нет подтверждения, что это улучшение действительно надёжно и не является случайным. Чтобы сделать уверенный вывод, нужно провести дополнительную проверку.
Как оценить статистическую значимость результатов тестирования
Статистическая значимость — это показатель, который помогает определить, являются ли наблюдаемые различия между группами результатом реального эффекта, а не случайности. Статистическая значимость в email-маркетинге нужна, чтобы быть уверенным, что при отправке выбранного варианта письма на большую базу результат повторится, а не исчезнет.
В маркетинге принято считать результат достоверным, если значимость составляет 95% и выше. Это значит, что вероятность случайного совпадения — всего 5%.
Представьте, что вы подбросили монетку 10 раз, и 7 раз выпал орел. Значит ли это, что монетка волшебная? Нет, это просто случайность на малом количестве попыток. Если вы подбросите её 1 000 раз, будет 50/50. В email-маркетинге так же. Лишние 25 кликов в группе Б могли появиться случайно. Например, в этой группе оказалось на пару активных фанатов больше.
Считать статистическую значимость вручную вовсе необязательно. Для этого существуют специальные онлайн-калькуляторы. Например:
- Mindbox Калькулятор — удобный вариант на русском, который сразу пишет «Результат значим» или «Разница не значима»;
- Evan Miller — для тех, кому нужна максимальная точность;
- AB Testguide — показывает не только значимость, но и доверительные интервалы.
Если калькулятор показывает «Значимо», значит, одна из гипотез действительно работает лучше. Нужно выбрать ту, которая дала лучший результат. Если же показана оценка «Не значимо», то различия случайны, и ни одна из гипотез не превосходит другую.