Как настроить robots.txt?

Опубликовано: 07.10.2022

7K Разборы

Как настроить robots.txt?

Автор

Михаил Шумовский

Редактор в «Конверте» и главред в «Нейромедиа»

Robots.txt — документ, который нужен для индексирования и продвижения сайта. С помощью этого файла владелец сайта подсказывает поисковым системам, какие разделы ресурса нужно учитывать, а какие — нет. Объясняю особенности его составления и настройки такого текстового файла.

Кому нужен robots.txt

Если у сайта нет robots.txt, поисковые роботы считают все страницы ресурса открытыми для индексирования. Если файл есть, владелец сайта может запретить роботам индексировать определённые страницы.

Например, контентным ресурсам или медиа можно работать без robots.txt — тут все страницы участвуют в индексации.

На других ресурсах могут быть страницы, которые не нужно показывать поисковым роботам:

Админ-панели сайта: пути, которые начинаются с /user, /admin, /administrator и т.д.
Пустые страницы ресурса: если на них нет контента, в индексации они не помогут.
Формы регистрации.
Личные страницы в интернет-магазинах: кабинеты пользователей, корзины и т.д.

Как настроить файл robots.txt

Начну с основных параметров.

User-agent: Yandex
Disallow: catalog/
Allow: /catalog/cucumbers/
Sitemap: http://www.example.com/sitemap.xml

User-agent — указывает название робота, к которому применяется правило. Например, User-agent: Yandex означает, что правило применяется к роботу Яндекса.

А user-agent: * означает, что правило применяется ко всем роботам. Но о звёздочках поговорим ниже.

Основные типы роботов, которые можно указать в User-agent:

Yandex. Все роботы Яндекса.
YandexBot. Основной робот Яндекса
YandexImages. Индексирует изображения.
YandexMedia. Индексирует видео и другие мультимедийные данные.
Google. Все роботы Google.
Googlebot. Основной робот Google.
Googlebot-Image. Индексирует изображения.

Disallow. Указывает на каталог или страницу ресурса, которые роботы индексировать не будут. Если нельзя индексировать конкретную страницу, например, определённый раздел в каталоге, нужно указывать полный путь к ней — как в поисковой строке браузера.

В начале строки должен быть символ /. Если правило касается каталога, строка должна заканчиваться символом /.

Например, disallow: /catalog/gloves. Так мы запретим индексацию раздела с перчаткам.

Если оставить disallow пустым, роботы будут индексировать все страницы сайта.

Allow. Указывает на каталог или страницу, которые можно сканировать роботу. Его используют, чтобы внести исключения в пункт disallow и разрешить сканирование подкаталога или страницы в каталоге, который закрыт для обработки.

Если требуется индексировать конкретную страницу, нужно указывать к ней полный путь. Как и в disallow. Например, allow: /story/marketing. Так мы разрешили индексировать статью о маркетинге.

Если правило касается каталога, строка должна заканчиваться символом /.

Если allow пустой, робот не будет индексировать никакие страницы.

Sitemap. Необязательная директива, которая может повторяться несколько раз или не использоваться совсем. Её используют, чтобы описать структуру сайта и помочь роботам индексировать страницы.

Чем лендинг отличается от сайта?

Лендингам и небольшим сайтам sitemap не нужен. А вот таким ресурсам без sitemap не обойтись:

Cайтам без хлебных крошек (навигационных цепочек).
Большим ресурсам. Например, если сайт содержит большой объём мультимедиа или новостного контента.
Сайтам с глубокой вложенностью. Например, «Главная/Каталог/Перчатки/Резиновые».
Молодым ресурсам, на которые мало внешних ссылок, — их роботам сложно найти.
Сайтам с большим архивом страниц, которые изолированы или не связаны друг с другом.

Файл нужно прописывать в XML-формате. Создание sitemap — тема для отдельной статьи. Подробную инструкцию читайте на Google Developers или в Яндекс.Справке.

Основные моменты robots.txt разобрали. Теперь расскажу про дополнительные параметры, которые используют в коде.

Для начала посмотрим на robots.txt Unisender. Для этого в поисковой строке браузера пишем Unisender.com/robots.txt.

По такой же формуле можно проверять файлы на всех сайтах: URL сайта + домен/robots.txt.

Robots.txt Unisender отличается от файла, который я приводил в пример. Дело в том, что здесь использованы дополнительные параметры:

Директива # (решётка) — комментарий. Решётки прописывают для себя, а поисковые роботы комментариев не видят.

User-agent: Yandex
Allow: /example/* # разрешает '/example/blog'
# разрешает '/example/blog/test'
Звёздочку роботы видят, а решётку — нет

Директива * (звёздочка) — любая последовательность символов после неё.

Например, если поставить звёздочку в поле disallow, то всё, что находится на её месте, будет запрещено.

User-agent: Yandex
Disallow: /example/* # запрещает '/example/blog'
# запрещает '/example/blog/test'
Disallow: */shop # запрещает не только '/shop',
# но и '/example/shop'

Также и с полем allow: всё, что стоит на месте звёздочки, — разрешено для индексации.

User-agent: Yandex
Allow: /example/* # разрешает '/example/blog'
# разрешает '/example/blog/test'
Allow: */shop # разрешает не только '/shop',
# но и '/example/shop'

Например, у Google есть особенность: компания рекомендует не закрывать от поисковых роботов файлы с css-стилями и js-скриптами. Вот как это нужно прописывать:

User-agent: Googlebot
Disallow: /site
Allow: *.css
Allow: *.js

Директива $ (знак доллара) — точное соответствие указанному параметру.
Например, использование доллара в disallow запретит доступ к определённому пути.

User-agent: Yandex
Disallow: /example # запрещает '/example',
                                    # запрещает '/example.html'
Disallow: /example$ # запрещает '/example',
                            # не запрещает '/example.html'
                              # не запрещает '/example1'
                              # не запрещает '/example-new'

Таким способом можно исключить из сканирования все файлы определённого типа, например, GIF или JPG. Для этого нужно совместить * и $. Звёздочку ставим до расширения, а $ — после.

User-agent: Yandex
Disallow: / *.gif$ # вместо * могут быть любые символы,
# $ запретит индексировать файлы gif

Директива Clean-param — новый параметр Яндекс-роботов, который не будет сканировать дублированную информацию и поможет быстрее анализировать ресурс.

Дело в том, что из-за повторяющейся информации роботы медленнее проверяют сайт, а изменения на ресурсе дольше попадают в результаты поиска. Когда роботы Яндекса увидят эту директиву, не будут несколько раз перезагружать дубли информации и быстрее проверят сайт, а нагрузка на сервер снизится.

www.example.com/dir/get_card.pl?ref=site_1&card_id=10
www.example.com/dir/get_card.pl?ref=site_2&card_id=10

Параметр ref нужен, чтобы отследить, с какого ресурса сделан запрос. Он не меняет содержимое страницы, значит два адреса покажут одну и ту же страницу с книгой card_id=10. Поэтому директиву можно указать так:

User-agent: Yandex
Disallow:
Clean-param: ref /dir/get_card.pl

Робот Яндекса сведёт страницы к одной: www.example.com/dir/get_card.pl?card_id=10

Чтобы директива применялась к параметрам на страницах по любому адресу, не указывайте адрес:

User-agent: Yandex
Disallow:
Clean-param: utm

Директива Crawl-delay — устанавливает минимальный интервал в секундах между обращениями робота к сайту. Это помогает снизить нагрузку на сервер ресурса. Чем выше указанное значение, тем меньше страниц робот загрузит за сессию.

Значения можно указывать целыми или дробными числами через точку.

User-agent: Yandex
Disallow:
Crawl-delay: 0.5

Для Яндекса максимальное значение в crawl-delay — 2. Более высокое значение можно установить инструментами Яндекс.Вебмастер.

Для Google-бота можно установить частоту обращений в панели вебмастера Search Console.

Директива Host — инструкция для робота Яндекса, которая указывает главное зеркало сайта. Нужна, если у сайта есть несколько доменов, по которым он доступен. Вот как её указывают:

User-agent: Yandex
Disallow: /example/
Host: example.ru

Если главное зеркало сайта — домен с протоколом HTTPS, его указывают так:

Host: https://site.ru

Как создать robots.txt

Способ 1. Понадобится текстовый редактор: блокнот, TextEdit, Vi, Emacs или любой другой. Не используйте приложения Microsoft Office, потому что они сохраняют файлы в неподходящем формате или добавляют в них лишние символы, которые не распознаются поисковыми роботами.

Способ 2. Создать на CMS с помощью плагинов — в этом случае robots.txt установится сам.

Что такое CMS и как ее выбрать

Если вы используете CMS хостинга, редактировать файл robots.txt не потребуется. Скорее всего, у вас даже не будет такой возможности. Вместо этого провайдер будет указывать поисковым системам, нужно ли сканировать контент, с помощью страницы настроек поиска или другого инструмента.

Способ 3. Воспользоваться генератором robots.txt — век технологий всё-таки.

Сгенерировать файл можно на PR-CY, IKSWEB, Smallseotools.

Создаём robots.txt на PR-CY

Требования к файлу robots.txt

Когда создадите текстовый файл, сохраните его в кодировке utf-8. Иначе поисковые роботы не смогут прочитать документ. После создания загрузите файл в корневую директорию на сайте хостинг-провайдера. Корневая директория — это папка public.html.

Папка, в которой нужно искать robots.txt. Источник

Если файла нет, его придётся создавать самостоятельно.

Как сделать файл robots.txt

Требования, которым должен соответствовать robots.txt:

Каждая директива начинается с новой строки.
Одна директива в строке, сам параметр также написан в одну строку.
В начале строки нет пробелов.
Нет кавычек в директивах.
Директивы не нужно закрывать точкой или точкой с запятой.
Файл должен называться robots.txt. Нельзя называть его Robots.txt или ROBOTS.TXT.
Размер файла не должен превышать 500 КБ.
robots.txt должен быть написан на английском языке. Буквы других алфавитов не разрешаются.

Если файл не соответствует одному из требований, весь сайт считается открытым для индексирования.

Как проверить правильность Robots.txt

Проверить robots.txt помогают сервисы от Яндекс и Google. В Яндексе можно проверять файл даже без сайта — например, если вы написали robots.txt, но пока не загрузили его на сайт.

Вот как это сделать:

Перейдите на Яндекс.Вебмастер.
В открывшееся окно вставьте текст robots.txt и нажмите проверить.

Проверяем robots.txt

Если файл написан правильно, Яндекс.Вебмастер не увидит ошибок.

Результаты анализа robots.txt

А если увидит ошибку — подсветит её и опишет возможную проблему.

Так вебмастер помогает найти ошибки

На Яндекс.Вебмастер можно проверить robots.txt и по URL сайта. Для этого нужно указать запрос: URL сайта/robots.txt. Например, unisender.com/robots.txt.

Unisender — robots.txt без ошибок

Ещё один вариант — проверить файл robots.txt через Google Search Console. Но сначала нужно подтвердить владение сайтом. Пошаговый алгоритм проверки robots.txt описан в видеоинструкции:

Подборки 30.06.2026

Каннские львы 2026: кто победил

Новости 03.07.2026

Wildberries добавил B2B-режим: компании смогут закупать товары со смартфона

Новости 13:10

Более 100 авторов обвиняют Anthropic в использовании пиратских книг

Кейсы 18.06.2026

AI в CRM: как Кинетика перестала строить сегменты вручную и увеличила ROMI до 600%

Тесты 18.02.2026

Тест: Project Offline. Кем вы будете работать в мире без интернета?

Готовая рассылка за 15 минут

В Unisender есть всё для быстрого старта в email-маркетинге: блочный редактор, 200+ шаблонов, ИИ-помощник.

Попробовать бесплатно

Готовая рассылка за 15 минут

ВКонтакте, Telegram

Свежие статьи

доксинг

Право 06.07.2026 1

Доксинг: как личные данные попадают в открытый доступ и чем это опасно

продающие рассылки

Email 06.07.2026 4K

Как заработать на email-рассылке

Slavic core — как использовать тренд в маркетинге и рекламе

SMM 03.07.2026 29

Slavic core: почему тренд на славянское стал вирусным

Синдром белого кролика

Здоровье 03.07.2026 27

Как выйти из режима нехватки времени и приручить синдром белого кролика

🔮 Создать письмо

Мы используем куки, чтобы сайт хорошо работал.

Продолжая им пользоваться, вы соглашаетесь на обработку ваших куки‑файлов.