12 парсеров для сбора данных с сайтов

Которые можно использовать, не нарушая закон

Парсеры для сбора данных с сайтов

Парсинг помогает быстро собрать, обработать и проанализировать большие объёмы информации на различных сайтах. Это полезно при изучении целевой аудитории, анализе конкурентов, исследовании рынка и не только. Однако важно выбрать подходящий инструмент с учётом конкретной задачи.

Сделали подборку парсеров для сбора данных с сайтов и разобрались, для каких целей они подходят.

Процесс парсинга

Что такое парсеры и как они работают

Парсеры — это специальные программы, которые собирают различные данные с сайтов по заданным критериям. Общий принцип работы всех парсеров примерно одинаков: 

  • переход на нужный ресурс и копирование его кода
  • анализ кода и нахождение необходимой информации; 
  • структуризация и сохранение данных. 

Работу парсера можно представить так, как будто человек ходит по разным сайтам и копирует нужные данные. В случае с парсингом по сайтам ходит робот, который выполняет нужные задачи в десятки раз быстрее. 

Вид информации, которую собирает парсер, зависит от его исходной функции и настроек. Можно собирать самые разные данные: цены конкурентов, товарные позиции, характеристики и описания товаров, контактные данные компаний, контент определённых тематики и формата. 

После анализа и обработки парсер сохраняет все данные в определённом формате — например, в  таблице Excel, документах PDF или TXT. 

Парсинг с правовой точки зрения
Зарина Эргашева
Зарина Эргашева

Кандидат юридических наук, основатель и руководитель онлайн-школы повышения квалификации юристов, Клуба процессуалистов России и проекта правовой помощи онлайн-бизнесу «ЮРГРАМ». Ведет свой Telegram-канал

Парсинг используется не только в маркетинге, но и в правовых целях. Например, правообладатели в спорах о нарушении их исключительных прав на интеллектуальную собственность обращаются к сервису аналитики маркетплейсов MPSTATS, чтобы определить количество контрафактного товара и рассчитать компенсацию.

Парсинг из открытых интернет-источников не запрещен законом и не является противоправной деятельностью в России.

Однако есть ограничения. Некоторые сервисы предлагают заказчикам организовать сбор ФИО, номеров телефонов, адресов электронных почт, к примеру, из социальных сетей. 

Казалось бы: информация общедоступная, размещена самим пользователем в соцсетях. Значит, её можно собирать и использовать? Нет, этого нельзя делать по Федеральному закону от 27.07.2006 №152-ФЗ «О персональных данных».

Обработка персональных данных субъекта может происходить только с его согласия, даже если он сам сделал их доступными для широкого круга лиц. Это предусмотрено в ст. 9 закона «О персональных данных».

Аналогия из авторского права: если пользователь размещает красивые пейзажи на своей странице в соцсети, это не значит, что любой может их скачать и использовать, например, в качестве иллюстрации к рекламному посту. Чтобы избежать конфликтов и возможных судебных разбирательств, нужно получить согласие автора на использование его произведения.

Тот же принцип работает и в отношении парсеров: если они собирают «общедоступные» персональные данные (ПД) субъектов, но при этом у них отсутствуют согласия на обработку персональных данных, это идет вразрез с законодательством. И может послужить поводом для привлечения к административной ответственности по ст. 13.11 КоАП РФ.

Раньше, до 1 марта 2021 года, операторы могли собирать персональные данные лиц без согласия на обработку ПД, если субъекты сами размещали сведения о себе в открытом доступе. Однако на основании ФЗ от 30.12.2020 № 519-ФЗ с 1 марта 2021 года эта норма утратила силу. И с тех пор обработка ПД без получения согласия субъектов незаконна.

Вывод насчёт законности парсинга:

  1. Его можно использовать, если нужно собрать информацию, по которой невозможно определить принадлежность персональных данных конкретному субъекту ПД, например, отзывы, пол, возраст, профессия и др.
  2. Если компания решила парсить отдельные персональные данные, например, email адреса, нужно использовать их с осторожностью. Не возникнет проблем, если с помощью сервиса собрали официальные электронные почты компаний. Другое дело, если речь идет об email граждан. Как правило, их собирают для отправки рекламных материалов. И здесь уже есть риск столкнуться еще и с нарушениями в области законодательства о рекламе ― как раз потому что у компании нет согласия на получение рекламных рассылок.
  3. Парсеры, которые автоматически собирают и структурируют информацию из интернет-ресурсов, при получении персональных данных граждан нарушают ФЗ «О персональных данных» поскольку у них нет согласий от субъектов на обработку ПД.

Программу для парсинга можно разработать с нуля специально под конкретную задачу. Но такое решение будет дороже в использовании. В большинстве случаев можно обойтись готовыми инструментами. Рассмотрим парсеры для разных задач.

Для сбора контента

Под сбором контента подразумевают парсинг новостей и заголовков, описаний к товарам, комментариев, любых публикаций по ключевым словам, видеоматериалов, картинок, постов в соцсетях.

При парсинге контента важно учитывать один важный нюанс , который касается последующего использования данных. Если вы собираете информацию, например, для отслеживания ситуации в нише или поиска актуальных идей, то вы не совершаете ничего противозаконного. Если же планируете публикацию собранных данных, то не забывайте об авторском праве. При размещении спарсенного материала в исходном виде обязательно указывайте источник и/или запрашивайте согласие автора на публикацию.

Интерфейс X-Parser Light
Пример настройки парсинга по ключевым словам

Примеры парсеров для сбора контента: 

X-Parser Light. Собирает тематический контент по списку ключевых слов или ссылок. Кроме текстовых данных парсит видео и изображения. Поддерживает любые поисковые системы и практически любой язык. Работает в формате десктопного приложения. Стоимость — 4100 ₽ единоразово (периодически бывают скидки, можно купить за 2870 ₽). 

Catalogloader. Умеет парсить информацию с сайтов интернет-магазинов — описания товаров, фото, характеристики, артикулы и пр. Можно самостоятельно настраивать критерии сбора. Весомый плюс — парсер работает в облаке, без скачивания на ПК. Есть бесплатная версия. Платные тарифы начинаются от 5400 ₽ в месяц. Можно посмотреть пример выгрузки информации.

XMLDATAFEED. Сервис позиционирует себя как инструмент для парсинга любой информации, которую можно собрать законным способом. Например, можно искать товарные описания, тексты, фото и изображения, ассортимент и характеристики. Особенность сервиса — в отсутствии готовых решений. Под каждый запрос команда разработчиков создаёт уникальный парсер для нужной задачи. Стоимость — индивидуально. Посмотреть примеры выгрузки.

Диггернаут. Облачный сервис, предлагающий платные и бесплатные парсеры. Стоимость платных решений — от 700 ₽ в месяц. С помощью специальных инструментов пользователь может создать собственный парсер (диггер) под нужный запрос. Можно заказать разработку сложных решений.

Для мониторинга конкурентов

Такие сервисы можно использовать для сбора и анализа цен конкурентов, акций на сайтах, маркетплейсах. Можно наблюдать рост или падение цен в динамике и на дашбордах. Узнать пересечения в ассортименте.

Интерфейс ALL RIVAL
Поиск товаров конкурентов с помощью парсера

Примеры парсеров для мониторинга конкурентов: 

Marketparser. Сервис мониторит цены в интернет-магазинах и на маркетплейсах. Достаточно загрузить список товаров, и в течение 3–20 минут по ним будет составлен актуальный отчёт. Можно использовать функцию автоматического ценообразования — на основе собранных данных сервис определит оптимальную стоимость товаров. Стоимость парсера зависит от количества проверок и начинается от 9500 ₽ в месяц. Данные визуализируются в графиках и на дашбордах.

ALL RIVAL. Этот парсер собирает цены конкурентов по указанным ссылкам. Из преимуществ — есть бесплатное автосопоставление результатов: колебание цен, пересечение ассортимента, отклонения от рекомендованной цены. Сервис доступен на бесплатном тарифе с ограничением до двух сайтов. Стоимость платного тарифа начинается от 5950 ₽ в месяц. 

Priceva. С помощью этого сервиса можно собирать цены конкурентов. Есть функция автоматической переоценки товаров пользователя. Все собранные цены конвертируются в валюту аккаунта на любом тарифе. Стоимость от 8750 ₽ в месяц. Есть бесплатный тариф с мониторингом до десяти сайтов. Сравнить цены конкурентов со своими можно на дашбордах.

uXprice. Это SaaS-решение. Программа собирает цены из рекламных объявлений, по ссылкам на конкретные товары и на указанных сайтах. Есть возможность сравнительного анализа цен конкурентов. Можно использовать функции конкурентного ценообразования для определения оптимальной стоимости своих товаров. Автоматически находит новых конкурентов. Сервис умеет мониторить цены конкурентов в 36 странах. Стоимость парсера — от $99 в месяц. Есть бесплатная версия на 7 дней.

Для парсинга SEO-параметров

Сбор SEO-данных полезен при внутренней, технической и внешней оптимизации. Парсеры помогают быстро осуществить комплексный анализ ресурса. У некоторых инструментов узкий набор функций, другие умеют собирать самые разные параметры. 

SEO-парсеры можно применять как для анализа собственного ресурса, так и для отслеживания конкурентов.

Отчёт PR-CY
Пример отчёта парсинга SEO-данных

Примеры парсеров для сбора SEO-данных: 

Screaming Frog SEO Spider. Многофункциональный парсер-сканер, который умеет собирать огромное количество разных данных — метатеги, XML-карты, битые ссылки, атрибуты Alt у картинок, дублированный контент, сведения о технической оптимизации и многое другое. Бесплатно можно проверить до 500 URL-адресов. Платная версия — $279 в год. SEO Spider работает в формате приложения для ПК. 

PR-CY. Сервис позволяет в режиме онлайн выполнить SEO-аудит сайта. Можно искать позиции ресурса в поиске, мета-теги, коды ответов сервера, заголовки, внешние исходящие ссылки, проблемные страницы. Встроены ИИ-инструменты, чтобы генерировать тексты, код и изображения. Стоимость — от 990 ₽ в месяц. Есть бесплатный доступ на 7 дней. 

Xenu’s Link Sleuth. Бесплатный и простой парсер для поиска неработающих ссылок. Список собранных URL можно сортировать по любым критериям. Отчёт можно запросить в любое время. Работает как декстопное приложение. 

A-Parser. Многофункциональный инструмент для профессионального использования. Умеет парсить любые данные в неограниченном объёме: ссылки, анкоры, сниппеты, позиции в поиске, рекламные блоки, ключевые слова и многое другое. Всего в сервисе доступно 110+ разных парсеров. Стоимость от $179 за пожизненную лицензию. При необходимости здесь можно заказать индивидуальную разработку парсеров по нужным параметрам.

Выбирая подходящий парсер, учитывайте ваши задачи и периодичность использования. Часто за один раз можно собрать определённый тип данных — для этого хватит бесплатного инструмента или триал-версии платного сервиса.

Для регулярного сбора данных выбирайте парсер, который настроен на работу с нужным вам типом данных. Если планируете собирать большое количество разной информации и в приоритете гибкие настройки парсинга, то, вероятно, стоит заказать индивидуальное решение.

«Честно» — рассылка о том, что волнует и бесит

Искренние письма о работе и жизни, эксклюзивные кейсы и интервью с экспертами диджитала.

Наш юрист будет ругаться, если вы не примете :(