Поисковая система

Автор статьи
Валерия Леонова

Поисковая система (поисковик) — это специальная программа, которая автоматизирует поиск информации в интернете. Благодаря индексации этот процесс происходит очень быстро, а в результате ранжирования пользователь получает упорядоченный список ресурсов, на которых содержится необходимая информация.

Искать информацию в интернете без поисковых систем было бы крайне сложно. Просмотреть триллионы страниц, расположенных хаотично, без всякой закономерности и структуры невозможно без использования специальных алгоритмов. Для этого и нужны поисковики. Они выстраивают четкую иерархию в этой системе и делают интернет доступным и удобным.

Самыми популярными поисковыми системами в России, по данным Яндекс.радар, являются «Яндекс» (61,7%) и Google (37,0%), доля Mail.ru и Rambler вместе взятых не превышает 1%.

Самые популярные поисковые системы в России по данным Яндекс.радар на сентябрь 2022 года

Если обратиться к мировой статистике, то здесь лидирует Google (84,8%), а «Яндекс» (1,06%) уходит на 6-е место.

Статистика использования поисковых систем в мире по состоянию на сентябрь 2022 г

Доля рынка наиболее часто используемых поисковых систем по всему миру по состоянию на сентябрь 2022 г. Источник

Принципы работы поисковых систем

Принципы работы любой поисковой системы примерно одинаковы и их условно можно разделить на несколько этапов.

Составление списка страниц

Для того чтобы поисковая система смогла найти нужную фразу в большом количестве сайтов, эти сайты должны быть ей известны, то есть прочитаны и сохранены в памяти.

 

Можно сравнить с библиотекой: если вы не знаете, какие книги стоят на полках и никогда не заглядывали в них, то вероятность того, что вы быстро сориентируетесь и найдете нужную цитату, равна нулю.

Поисковая система узнает о содержимом сайтов с помощью специального робота — краулера, или паука. Название происходит от английского crawler (ползающее насекомое, ползунок). Робот обходит все страницы, переходит по ссылкам и постепенно охватывает миллиарды веб-страниц в сети, сохраняет их и отправляет на индексацию.

Индексация

Следующий этап — добавление данных о странице в базу поисковой системы. Обычно поисковик собирает и хранит информацию о содержимом страниц: ключевых словах, которые там используются, а также размещенном контенте (статьях, документах, изображениях, аудиофайлах). Пока страница не проиндексирована, для поисковика она не существует.

 

По аналогии с библиотекой это работает так: недостаточно знать, в каких примерно книгах содержится похожая фраза. Важно найти релевантную страницу с текстом. Тогда вы сможете воспользоваться этой информацией.

Искать фразу или слова, перелистывая страницы книги или просматривая весь сайт, неудобно. Но если у вас есть предметный указатель, например такой, который используется в технической литературе, учебниках или инструкциях к приборам, вы сможете без труда найти любой термин.

Пример типичного предметного указателя — аналог индексации в поисковике

В предметном указателе к инструкции все термины расставлены по алфавиту и обозначены страницы, на которых они встречаются

Тот же принцип лежит в основе поисковой индексации.

Индексный робот получает информацию о странице от краулера и упорядочивает ее. Удаляет ненужные элементы, выбирает слова и запоминает, где эти слова были обнаружены. Получается подробный список адресов страниц и размещенных на них слов.

Ранжирование и поисковая выдача

Поиск и ранжирование — наиболее приближенная к пользователям и значимая для них часть процесса. Если предыдущие этапы проходят в автоматическом режиме и фактически являются подготовительными, то на этом этапе появляется видимый результат — поисковая выдача, ради которой и создаются поисковые машины.

Когда человек вводит текст в поисковую строку, машина с помощью алгоритмов выбирает все страницы, имеющие отношение к запросу. Их очень много и в таком количестве они не нужны, поэтому необходимо их отсортировать, упорядочить и выбрать релевантные страницы. То есть самые правильные и имеющие отношение к делу.

Этот процесс называется ранжированием. Он проходит в несколько этапов, на каждом из которых фильтрация становится сложнее, а список ресурсов сужается. Невозможно точно определить, какие алгоритмы влияют на ранжирование, потому что все поисковики используют свои формулы, которые постоянно обновляются и развиваются. 

Результаты поисковой выдачи различаются:

  • в разных поисковиках, так как используются различные критерии фильтрации;
  • в разных регионах, так как в запросах учитывается местонахождение пользователя;
  • на разных устройствах — в десктопной и мобильной версии;
  • по одинаковым запросам у разных пользователей, так как учитывается индивидуальная история поиска. 
Пример поисковой выдачи Яндекс и Google для сравнения.

По запросу «Муми тролли» «Яндекс» и Google выдают разные результаты, на первой странице совпадает только один сайт из шести

На выходе получается привычный для нас список ресурсов. Чем выше место веб-ресурса в этом списке, тем более актуальную информацию он содержит. Такая структура удобна пользователям и полезна владельцам страниц. Первые получают самую необходимую информацию в порядке значимости, вторые используют поисковую выдачу для продвижения своего сайта.

Апдейт и границы индексирования

Поисковая система использует данные только тех ресурсов, которые были проиндексированы. Это значит, что существуют страницы, которые не попадают в поисковую выдачу. 

Формальных ограничений нет, но на практике они возможны:

  • Языковые границы. Например, разные приоритеты индексации «Яндекс» и Google. «Яндекс» больше нацелен на русскоязычную аудиторию и ее интересы, хотя и не ограничивается только ими, Google индексирует сайты со всего мира.
  • Технические ошибки разработчиков.
  • Не все форматы данных одинаково хорошо индексируются, так как изначально поисковые машины были рассчитаны на обработку веб-страниц, то есть формат HTML.
  • Плохая работа сервера или сайт загружается с перебоями.
  • Дубли страниц и копипаст с других ресурсов.
  • Низкий трафик.
  • Слишком большая глубина сайта, размер документа — файлы более 10Мб не индексируются.
  • Другие причины, иногда такие экзотические, как «Adult-фильтр» — блокировка сайтов за взрослый контент. 

Но главная причина того, что страница не появляется в выдаче — она новая, и поисковый робот просто не успел ее проиндексировать. В зависимости от характеристик сайта обновление или апдейт страниц может занять от нескольких минут до недель. Проверить индексирование страницы можно в Яндекс.Вебмастере раздел «Индексирование», а в Google Search Console «Проверка URL».

Яндекс.Вебмастер — сервис для вебмастеров

Яндекс.Вебмастер помогает понять, виден ли сайт в поисковой выдаче

Апдейт не только обновляет базы данных поисковиков, но и приводит к пересортировке поисковой выдачи. Поэтому сайт, который находился на вершине ранжирования, может в один момент исчезнуть из зоны видимости. А так как критерии ранжирования засекречены, то снова вернуться в верхние строчки может быть довольно сложно.

Виды поисковых систем

Поисковые системы делятся на четыре категории в зависимости от типа обработки данных:

  1. Системы на основе поисковых роботов — краулеров. Принципы работы такой системы описаны выше и большинство популярных поисковых систем работает по этой технологии. Задача поисковика — обойти и просканировать сеть, чтобы создать структурированный архив веб-документов и список слов. А целью является создание ранжированного списка ресурсов.
    Примеры: Google, «Яндекс», Baidu (крупнейшая китайская поисковая система).
  2. Системы, управляемые человеком. Каталог сайтов полностью формируется вручную. Владелец сайта отправляет описание веб-мастеру и указывает категорию каталога, в которую его нужно включить. Сайт проверяет человек и включает в список, если он проходит модерацию. Это гарантирует более качественный контент, чем в первом варианте, но значительно замедляет ранжирование и обновление данных.
    Примеры: каталог Yahoo, dmoz
  3. Гибридные системы. Сочетание автоматических поисковых роботов и процессов, управляемых человеком. Например, восстановление в каталоге удаленного сайта, нарушившего правила. Владелец страницы в этом случае вносит исправления и отправляет запрос в поддержку. Решение о повторном включении ресурса в поисковую систему принимает эксперт.
    Примеры:  MSN. Сюда же условно можно отнести Google, «Яндекс» и другие популярные поисковики, функционал которых не исключает ручную корректировку каталогов.
  4. Метакраулеры. В отличие от поисковых систем, метакраулеры сами не сканируют веб-страницы для создания списков. Вместо этого они позволяют отправлять запросы нескольким поисковым системам одновременно.
    Примеры: dogpile, DuckDuckGo

Есть и другие специализированные сервисы, которые можно использовать для поиска информации. Некоторые из них более удобны для поиска книг, фотографий, а какие-то обеспечивают большую конфиденциальность при работе и не запрашивают данные пользователей.

Главные мысли

поисковая система это

Вы нашли ответ?

4
1