Семплирование

Одобренно экспертом
петров
Эксперт статьи
Александр Петров
Старший веб-аналитик в digital-агентстве i-Media
Автор статьи
Джулия Фатхутдинова

Семплированиеэто статистический способ обработки данных, при котором алгоритм анализирует только их часть (выборку). На основе выводов строится представление о характеристиках всей собранной информации, то есть выявленные закономерности применяют ко всему массиву.

Термин образован от английского «sample», что переводится как проба или образец.

 

В Рунете встречается два варианта написания слова: семплирование и сэмплирование. С точки зрения грамматики первый вариант верный. Однако слово «сэмплирование» также часто используется.

В математической статистике под семплированием понимают набор методов, с помощью которых формируют выборку — то есть отбирают небольшой кусок данных из большого объема информации.

График с пиццей

Чтобы понять, из чего состоит и какая на вкус пицца, не нужно есть её всю. Достаточно попробовать один кусочек. По этому принципу и работает семплирование. Выводы о характеристиках и качествах большой группы данных делают, изучив только ее часть

В интернет-маркетинге о семплировании говорят в контексте отчетов веб-аналитики.

Представим, что на сайт зашло 100 пользователей, из них 11 человек перешли по ссылке из соцсетей. Пользователей мало, сервис легко отследит каждую операцию, посчитает и сформирует отчет.

Ситуация выглядит иначе, когда на сайт заходит 10 000 000 пользователей. Проанализировать действия каждого сложно, для этого потребуются большие вычислительные мощности.

Чтобы облегчить задачу, сервис аналитики делает выборку в 10%. С помощью специальных математических методов отбирают 1 000 000 человек, из них 117 000 перешли на сайт из социальных сетей.

Далее платформа умножает эту сумму на 10 и в итоговом отчете показывает, что из 10 000 000 посетителей сайта 1 170 000 человек пришло из соцсетей.

В самых популярных системах веб-аналитики (в «Яндекс Метрике» и Google Analytics) алгоритм семплирования выбирает данные равномерно среди всех посетителей сайта. При этом он сохраняет корреляцию и распределение атрибутов (характеристик пользователя) в семплированном отчете, что позволяет получить результаты, представительные для полной выборки.

Александр Петров

Александр Петров

Старший веб-аналитик в digital-агентстве i-Media

Когда применяется семплирование данных

Семплирование данных используется в различных аналитических инструментах. Google Analytics и «Яндекс Метрика» прибегают к семплированию при обработке больших объемов информации и подготовке отчетов веб-аналитики. Это происходит, когда количество сессий превышает определенный лимит. 

Семплирование – это не единственный метод органичения вывода данных в системах веб-аналитики. Помимо семплирования также есть ограничения на вывод персональных или чувствительных данных, из-за чего отчеты могут быть неполными.

Александр Петров

Александр Петров

Старший веб-аналитик в digital-агентстве i-Media

Рассказываем, как работает семплирование.

Семплирование в Google Analytics

В стандартных отчетах Google Analytics семплирование не используется. Это вкладки «Сводка отчетов», «Обзор в режиме реального времени», «Жизненный цикл», «Пользователь». Сервис загружает информацию из заранее обработанных таблиц баз данных (агрегированная статистика). Это сокращает время подготовки отчетов. 

А вот в «Исследованиях» Google Analytics использует необработанные данные на уровне событий и пользователей. Система загружает их напрямую, не используя предварительно обработанные таблицы. Для их загрузки требуется больше времени, но результаты подробнее. 

полные данные

Здесь система использует полные данные

Если количество событий, которые нужно обработать в «Исследовании», превышает лимит квоты, GA4 использует репрезентативную выборку из доступных данных. В этом случае в правом верхнем углу появляется уведомление и соответствующий значок.

неполные данные

В этих отчетах система использует неполные данные

Лимит квоты составляет 10 млн событий для пользователей бесплатной версии Google Analytics 4 и 1 млрд событий для пользователей Google Analytics 360.

При работе с выборкой на точность результата влияет соотношение между общим объемом данных и процентом выборки. Чем больше размер выборки, тем точнее результат.

Семплирование в «Яндекс Метрике»

«Яндекс Метрика» использует семплирование при составлении аналитических отчетов. Лимит составляет 500 000 визитов, или 2 млн просмотров в стандартной версии, при подключении услуги «Метрика Про» ограничения отсутствуют. Семплирование не используют при формировании отчетов категории «Директ». Система также хранит все исходные данные.

Чтоб понять, применит ли «Яндекс Метрика» семплирование для конкретного отчета, нужно посмотреть значение показателя. Если он равен 100% — данные полные. Если ниже — программа обращается к выборке.

яндекс метрика

«Яндекс Метрика» использует неполную выборку

Почему семплирование данных — это плохо

При семплировании анализируются не все данные, поэтому часть информации может потеряться. При работе с выборкой в результате анализа можно упустить некоторые детали или тенденции, которые оказались в другой части данных. 

Рассмотрим наглядный пример. У нас есть коробка шариков. Чтобы узнать все цвета и размеры, достаточно осмотреть каждый. Когда шариками заполнена целая комната, то потребуется слишком много времени, чтобы изучить их все. Поэтому мы используем семплирование: берем часть шариков и смотрим на них.

Пример с шариками

Как видно на картинке, не все шарики из большого квадрата попали в выборку. Там нет ни одного зеленого и оранжевого. Если мы будем смотреть только на выборку, то никогда не узнаем о существовании больших зеленых и маленьких оранжевых шаров.

Если представить, что на картинке выше реальные данные, то при семлировании в  системах веб-аналитики точно будут большие зеленые шары и, вероятно, оранжевые тоже, но их количество в отчете с семлированием будет отличаться от реальности в зависимости от процента. Если процент семплирования большой, то, возможно, в отчете не будет шаров, которые редко встречаются (оранжевых).

Заранее гарантировать, какие данные могут попасть или не попасть в отчет с семплированием, невозможно.

Александр Петров

Александр Петров

Старший веб-аналитик в digital-агентстве i-Media

Семплирование при работе с большими объемами информации сокращает время, потраченное на анализ, и снижает нагрузку на сервера. Полностью от него отказаться не всегда возможно. Поэтому нужно найти оптимальное соотношение между объемом выборки и допустимой погрешностью. Алгоритмы семплирования совершенствуются, чтобы собирать наиболее показательную выборку, которая максимально соответствует по характеристикам полному объему данных. Как избежать семплирования данных в аналитических отчетах.

Избежать семплирования и повысить точность отчетов в «Яндекс.Метрике» и Google Analytics помогут следующие действия:

  • Уменьшить период анализа. Составить отчет за более короткий временной период.
  • Увеличить объем и точность выборки. Это можно сделать вручную только в «Яндекс.Метрике». Для Google Analytics можно использовать другой тип отчета — «Исследования»
  • Использовать дополнительные инструменты. Подключить «Метрика Про» или Google Analytics 360, BI-системы и другие альтернативные сервисы.
  • Создать отдельный кабинет для каждого сайта. Отслеживать все ресурсы в одном кабинете удобно, но если данных много, разделите их.

Самым эффективным способом избежать семплирования в веб-аналитике является выгрузка сырых данных. Это можно сделать через интеграцию с базами данных или с помощью API.

Для «Яндекс Метрики» можно воспользоваться logsAPI или интеграцией с ClickHouse. Выгружать сырые данные из Google Analytics 4 удобнее всего через интеграцию с Google BigQuery. Это позволит вам получать более детализированные и полные данные, не подвергаясь семплированию. Далее выгруженные сырые данные обрабатываются и представляются в BI-системах.

Александр Петров

Александр Петров

Старший веб-аналитик в digital-агентстве i-Media

Главные мысли

семплирование это

Вы нашли ответ?

2
0