menu

7 из 8 тестов — фигня. 4 калькулятора для правильного теста

Как провести А/Б-тест и получить значимые данные

от редакции

По данным сервиса AppSumo, только 1 из 8 A/B-тестов дает значимые результаты. Все остальное — догадки и цифры с потолка. Причина — маленькая выборка и недостаточный объем данных. Рассказываем о четырех незаменимых инструментах, которые помогут провести достоверный A/B-тест.

Мы не будем приводить формулы для расчета объема выборки. Вряд ли кто-то с карандашом в руках бросится считать статистические погрешности. В интернете можно найти много инструментов, которые считают выборку и проверяют данные теста на значимость. Мы расскажем о тех, которым доверяем сами.

Начнем с определений.

  1. Генеральная совокупность — все, на кого распространятся выводы А/В-теста. Например, все ваши подписчики.
  2. Выборка — те, кто проходит тест. По действиям выборки вы делаете выводы о поведении всей совокупности.
  3. Погрешность — допустимая ошибка в результатах. Обычно берут от 1% до 5%.
  4. Уровень доверия — если коротко, то это точность выборки. Обычно 95%.

Кому и сколько писем рассылать

Чтобы посчитать выборку, используем онлайн-калькуляторы. Они могут дать разные результаты. Рекомендуем использовать один как основной и один для проверки.

Калькулятор Optimizely

Этот калькулятор очень простой, разработан платформой Optimizely для тестирования веб-страниц. Учитывает 2 основных параметра:

  1. Ожидаемая конверсия. Например, из открытий в переходы.
  2. Минимально значимый эффект — разница между А и В, которая для вас будет ощутимой.

Предположим, вы отправили 100 писем группе А и 100 писем группе В. Группа А открыла 20 писем. Группа В — 23 письма, на 15% больше. Решите, насколько этот процент ощутим для вашего бизнеса и подставьте его во вторую колонку.

Исходя из двух параметров сервис считает объем выборки.

Калькулятор Optimizely

Калькулятор Optimizely

Метод SurveyMonkey

Самый обстоятельный и надежный метод. SurveyMonkey — сервис для проведения онлайн-опросов. У себя на сайте компания объяснила, как за 5 шагов определить нужный объем выборки.

  • 1 шаг — определить генеральную совокупность. Вся база контактов? Женщины 25-35 лет? Лиды, отказавшиеся от покупки?
  • 2 шаг — определить точность теста. Заложите погрешность от 1% до 5% и уровень доверия от 90% до 99%.
  • 3 шаг — определить необходимый объем выборки. Используйте таблицу.

Расчет выборки методом SurveyMonkey

Расчет выборки методом SurveyMonkey

Пример. Проводим тест по всей базе — 10 000 адресов. Подходящая нам выборка — от 370 до 4 900 респондентов. Учитывая ресурсы и желание доверять полученным данным, я бы остановился на 623.

  • 4 шаг — прикинуть процент ответивших. Как «консервативное и наиболее вероятное значение» сервис предлагает заложить 10-14%. Если вы тестируете заголовки — заложите средний Open Rate.
  • 5 шаг — узнать, скольким людям отправлять письмо. Разделите цифру из третьего шага на цифру из четвертого.

Проделав все 5 шагов, вы понимаете, сколько писем нужно отправить, чтобы результатам теста можно было доверять.

Значимый результат или нет

Вы провели сплит-тест и получили разные результаты для группы А и В. Предположим, на кнопку А нажало на 15 человек больше, чем на кнопку В. Значим ли этот результат с точки зрения статистики?

Понять это помогут 2 простых калькулятора.

1. Калькулятор VWO

Ребята из сервиса Visual Website Optimiser разработали приятный калькулятор значимости результатов теста. Просто забиваете объем выборки по контрольной (А) и тестовой (В) группе и количество целевых действий.

Калькулятор дает ответ:

  • Yes — разница в результатах между группами A и B значима;
  • No — разницы нет или она незначительна.

Калькулятор VWO

Калькулятор VWO

Если вы работаете над тестом на даче и без интернета — скачайте Excel-версию.

2. Калькулятор AB Testguide

Калькулятор работает по тому же принципу, добавляя к ответу математические обоснования.

Калькулятор AB Testguide

Калькулятор AB Testguide

Иногда для теста рассылки считать выборку не надо — тестовые письма отправляются по всей базе. Но даже в этом случае надо понимать, имеют ли полученные данные статистическую значимость. Используйте калькулятор.

Правило: тестировать один элемент

Кроме малого объема выборки и данных есть еще одна частая проблема А/В-тестов. Это большое количество экспериментов, когда тестируется не один элемент, а несколько.

Например, онлайн-школа тестирует длинный и короткий варианты письма. При этом длинный вариант содержит не только больше текста, но и дополнительные визуальные элементы, текст структурирован и сформулирован по-другому. Такой эксперимент заведомо не имеет значимости. Вернее, значимость он имеет, но полученные результаты нельзя применять в будущем: тест репрезентативен только для двух отправленных писем.

Вывод

Тестировать рассылки нужно. Но только тогда, когда можете собрать статистически значимые результаты. В остальных случаях тесты вредны: компания получает  заведомо искаженные данные о поведении своих подписчиков. О том, как правильно настроить сплит-тесты в UniSender, читайте в нашей Базе знаний.

Удачи!

  • Алжанбек Шахнавазов

    Ссылка на первый калькулятор ведет на скриншот 🙂