Все
статьи

Индексирование сайта: что это и как им управлять

В этой статье вы узнаете, что такое индексация сайтов, как индексируют сайты Google и Яндекс, как можно ускорить индексацию вашего сайта и какие проблемы встречаются чаще всего.

Кому полезна статья?

Начинающим SEO-специалистам и маркетологам, веб-разработчикам и владельцам сайтов, желающим разобраться в принципах индексирования и методиках его улучшения.

Оглавление

Индексирование сайта — что это и для чего необходимо?

Прежде чем касаться вопроса индексации, необходимо вспомнить о целях любой поисковой системы. Главная задача поиска — ответ на запрос пользователя. Чем точнее и качественнее он будет, тем чаще пользователи будут пользоваться поисковиком.

Поисковая система ищет подходящую информацию в своей базе данных, куда сайты попадают после их индексирования, а значит, только корректное индексирование может обеспечить попадание в выдачу.

Процесс можно разделить на 3 этапа:

Сканирование, индексация и ранжирование в поисковых системах

Из схемы можно увидеть, что процесс сканирования и индексирования — это база для ранжирования любого сайта. Если возникают существенные проблемы на любом из указанных этапов, то можно забыть о высоких позициях, росте трафика и лидов. Рассмотрим эти этапы детальнее.

Сканирование и индексация сайта — как протекает процесс?

Сканирование сайта (или crawling) — процесс, при котором поисковые роботы обходят сайт и загружают страницы с целью определения внутренних ссылок и контента.

Источники, из которых поисковые системы могут узнавать о новых страницах на сайте:

  • Из XML-карт сайта — ссылки на них, как правило, есть в robots.txt.
  • Из данных с<hчетчиков — Яндекс.Метрика, Google Analytics.
  • Из данных браузеров — Яндекс.Браузер, Google Chrome.
  • Из сервисов для веб-мастеров — отправка на переобход в Яндекс.Вебмастере, запрос на индексацию URL в Google Search Console.
  • Из RSS-фида — XML-файл в специальном формате.
  • По протоколу IndexNow.

Уже просканированные страницы сайтов боты поисковых систем периодически переобходят для выявления изменений, способных повлиять на их ранжирование.

Алгоритм сканирования сайтов следующий:

Сканирование сайта поисковым роботом

После сканирования поисковые роботы добавляют страницы в поисковый индекс. Сама по себе индексация представляет собой процесс, при котором поисковые системы упорядочивают информацию перед поиском, чтобы обеспечить максимально быстрый ответ пользователю на запрос.

Каждый из этапов сканирования важно контролировать, так как любые ошибки могут критически влиять на индексацию страниц.

Наиболее популярные ошибки

При работе с сайтом каждый оптимизатор или маркетолог сталкивались с проблемами индексирования сайтов. Далее разберем примеры самых частых проблем.

Сайт или страницы закрыты в robots.txt

Наиболее популярная проблема, встречающаяся у всех типов сайтов.

Файл robots.txt — это текстовый документ, содержащий разрешающие и запрещающие директивы для ботов поисковых систем.

Если ваш robots.txt содержит строку «Disallow: /», это повод проверить, видит ли ваш сайт поисковый бот. Сделать это можно с помощью инструмента https://webmaster.yandex.ru/tools/robotstxt/.

Бот не получает код ответа 200

Вторая наиболее часто встречающаяся проблема индексирования — наличие кодов ответа 4XX или 5XX.

Примеры ошибок:

Код ответа Ошибка Описание
400 Неверный запрос / Bad Request Запрос не может быть понят сервером из-за некорректного синтаксиса.
401 Неавторизованный запрос / Unauthorized Для доступа к документу необходимо вводить пароль или быть зарегистрированным пользователем.
402 Необходима оплата за запрос / Payment Required Внутренняя ошибка или ошибка конфигурации сервера.
403 Доступ к ресурсу запрещен / Forbidden Доступ к документу запрещен. Если вы хотите, чтобы страница индексировалась, необходимо разрешить доступ к ней.
404 Ресурс не найден / Not Found Документ не существует.
405 Недопустимый метод / Method Not Allowed Метод, определенный в строке запроса (Request-Line), не дозволено применять для указанного ресурса, поэтому робот не смог его проиндексировать.
406 Неприемлемый запрос / Not Acceptable Нужный документ существует, но не в том формате (язык или кодировка не поддерживаются роботом).
407 Требуется идентификация прокси, файервола / Proxy Authentication Required Необходима регистрация на прокси-сервере.
408 Время запроса истекло / Request Timeout Робот не передал полный запрос в течение установленного времени, и сервер разорвал соединение.
410 Ресурс недоступен / Gone Затребованный ресурс был окончательно удален с сайта.
500 Внутренняя ошибка сервера / Internal Server Error Сервер столкнулся с непредвиденным условием, которое не позволяет ему выполнить запрос.
501 Метод не поддерживается / Not Implemented Сервер не поддерживает функциональные возможности, требуемые для выполнения запроса.
502 Ошибка шлюза / Bad Gateway Сервер, действуя в качестве шлюза или прокси-сервера, получил недопустимый ответ от следующего сервера в цепочке запросов, к которому обратился при попытке выполнить запрос.
503 Служба недоступна / Service Unavailable Возникла ошибка из-за временной перегрузки или отключения сервера.
504 Время прохождения через межсетевой шлюз истекло / Gateway Timeout Сервер при работе в качестве внешнего шлюза или прокси-сервера своевременно не получил отклик от вышестоящего сервера.

Наличие HTTP-кодов ответа сервера, отличных от 200, может стать серьезной проблемой на пути сканирования и индексации сайта.

Проверить ответ сервера вы можете с помощью внутренних инструментов поисковых систем: https://webmaster.yandex.ru/tools/server-response/ и https://search.google.com/search-console/. Или с помощью внешних сервисов, например https://bertal.ru/.

Бот не может получить код страницы

Главное для поисковика — наличие исходного HTML-кода, который он сможет прочесть. С развитием JavaScript технологий сайты стали функциональнее и быстрее, однако из-за фреймворков может происходить их некорректная индексация и снижение трафика.

Основная проблема JS-фреймворков в том, что они развиваются быстрее поисковых систем. Особенно это было заметно в Яндексе, где у сайтов на JavaScript часто возникали проблемы с индексированием контента (но есть надежда, что в ближайшем будущем ситуация изменится).

Да и у Google процесс сканирования и индексирования JS-сайтов несколько отличается от обработки классического HTML. В процесс индексирования включается этап «отрисовки» (rendering), увеличивающий время индексирования:

Отрисовка HTML-страницы в Google

Поскольку рендеринг требует гораздо больше вычислительных ресурсов, чем разбор HTML, то возникают следующие проблемы:

  • Этап рендеринга может длиться значительно дольше, чем индексация HTML-страницы. Он может занять несколько недель.
  • Не все страницы сайта в принципе могут дойти до этапа рендеринга.

При работе с JS-сайтами учитываете требования поисковиков: https://yandex.ru/support/webmaster/yandex-indexing/rendering.html и https://developers.google.com/search/docs/advanced/javascript/javascript-seo-basics?hl=ru.

Проверить, как индексируется ваш сайт и настроен ли корректно рендринг, вы можете:

Используя сервис https://bertal.ru/ или аналогичный, выставив настройки «отображать HTML-код» и подходящий тип поискового робота:

Проверка HTML-кода

Анализируя текстовую сохраненную копию страницы в выдаче Яндекса и Google. В случае, если вы наблюдаете проблемы с видимостью страниц на JS-фреймворках, проверьте сохраненную текстовую копию страницы прямо из выдачи:

Ссылка на сохраненную копию страницы в Яндексе

Анализируя страницы непосредственно в сервисах Яндекса и Google для веб мастеров — Яндекс.Вебмастере и Google Search Console. Рекомендуем обращать внимание не только на те страницы, что попали в индекс, но и на те, что не попали. Важно понять, должны ли эти страницы индексироваться и если должны, то по какой причине этого не происходит.

Страницы закрыты метатегом robots или заголовком X-Robots-Tag

Кроме файла robots.txt, поисковик может не получить доступ к конкретной странице, если на ней указан метатег robots, запрещающий её индексацию:

<meta name="robots" content="noindex, nofollow" />

Данный тег размещается внутрь тега…и дает поисковику команду не индексировать страницу (noindex) и не переходить по ее внутренним ссылкам (nofollow).

Аналогом метатега может быть блокировка сканирования страниц с помощью HTTP-заголовка X-Robots-Tag.

Проверить доступность страниц вы можете в инструментах для веб мастеров, например https://webmaster.yandex.ru/tools/server-response/, либо с помощью парсинга сайта программами Screaming Frog SEO Spider, Netpeak Spider и т. д.

Отметим, что отсутствие вышеперечисленных ошибок не может гарантировать корректного сканирования и индексирования сайта. Негативно могут влиять:

  • мусорные страницы — например, страницы результатов сортировок или работы фильтров;
  • дубли страниц — один и тот же контент, доступный по разным URL;
  • технические/служебные страницы без полезного для пользователей контента;
  • дубли страниц в формате PDF и т. д.

Как управлять сканированием и индексацией?

Для того чтобы сайт индексировался корректно, необходимо контролировать, как поиск видит сайт и расходует краулинговый бюджет.

Краулинговый бюджет — это квота страниц сайта, подлежащих индексированию в рамках одного обращения робота к сайту. Например, если краулер вместо целевых и полезных страниц ходит по мусорным документам, то индексация ухудшается, новые страницы не попадают в поиск, а потенциал трафика уменьшается.

Чтобы направлять краулер туда, куда необходимо, важно использовать следующие методы управления индексацией.

Файл robots.txt

Самый простой метод управления индексацией — текстовый файл robots.txt в корневой папке сайта. Как мы уже отметили ранее, поисковые роботы всегда обращаются к содержимому файла для понимания, какие страницы доступны к добавлению в поисковый индекс, а какие нет. Вы можете использовать файл для блокировки тех страниц, которые вы считаете неважными и ненужными к индексированию.

Пример:

Disallow: /folder-you-want-to-block/

Плюсы

  • Как правило, легко внедрять корректировки.
  • Быстро принимается и учитывается поиском.
  • Есть возможность проверки файла с помощью Яндекс.Вебмастера и Google Search Console.

Минусы

  • Google может проигнорировать директивы в robots.txt и добавить страницы в индекс. Google считает, что файл robots.txt управляет только сканированием сайта, а не его индексацией.
  • Ссылки на страницы, закрытые в robots.txt, расходуют т. н. «статический вес» страниц (PageRank, ВИЦ и подобные алгоритмы).
  • С заблокированных страниц не передается вес на другие страницы сайта.

Важный факт. Для Яндекса существует полезная директива «Clean-param», где вы можете указать параметры URL, которые поиск должен игнорировать. Например, результаты сортировки или работы фильтра товаров. Плюс такого решения — передача сигналов ранжирования (например поведенческих метрик) на страницы без параметров, что очень важно для Яндекса.

Метатег robots

Метатег robots позволяет эффективнее блокировать страницы к индексированию. В частности, для Google это более важный сигнал, чем инструкции в файле robots.txt.

<meta name="robots" content="noindex, nofollow" />

Внедрив тег на страницу, вы сможете без участия файла robots.txt заблокировать её индексацию.

Плюсы

  • Может эффективнее работать для блокировки страниц в Google, чем robots.txt.
  • Хорошо воспринимается поисковыми ботами.

Минусы

  • Более трудоемко, чем блокировка в robots.txt, если нужно заблокировать много страниц.
  • Применим только для HTML-страниц.
  • Ссылочный вес не передается на другие страницы.

При использовании метатега robots обращайте внимание на содержимое robots.txt. Чтобы Google увидел метатег robots на странице, она не должна быть заблокирована в файле robots.txt.

HTTP-заголовок X-Robots-Tag

Аналог метатега robots. Вы можете использовать тот или иной метод.

Плюсы

  • Может эффективнее работать для блокировки страниц в Google, чем robots.txt.
  • Хорошо воспринимается поисковыми ботами.

Минусы

  • Более трудоемкая реализация, чем использование файла robots.txt или метатега robots.

На практике X-Robots-Tag применяется реже, чем предыдущие два метода. При этом данный метод отлично работает для документов, отличных от HTML. К примеру, с помощью X-Robots-Tag можно легко блокировать PDF и другие документы, изображения и скрипты, что метатег сделать не может.

Тег и HTTP-заголовок canonical

Метатег, применяемый для указания среди двух или более одинаковых страниц одной канонической, которую поисковик должен проиндексировать и добавить в поиск, при этом другие страницы будут признаны неканоническими и добавляться в индекс не будут. Пример тега:

<link rel="canonical" href="https://www.iseo.ru/blog/" />

По сравнению с другими методами, тег canonical не является блокирующим. Вы можете поменять каноническую страницу или полностью удалить тег.

Плюсы

  • Передает сигналы ранжирования (например ссылочные факторы) с неканонических на каноническую страницу. Аналогично 301-му редиректу.
  • Позволяет бороться с дублями страниц внутри сайта.
  • Может быть использован для указания скопированного контента, если вы размещаете один и тот же контент на нескольких доменах. Но некоторые поисковые системы могут не поддерживать межхостовый canonical.
  • Легко обратим, если править теги canonical позволяет ваша CMS.

Минусы

  • Тег носит рекомендательный характер. Если страницы заметно различаются, то поисковый бот может сменить каноническую страницу и добавить в индексе не ту копию, что вам нужна.
  • Не экономит краулинговый бюджет. Бот реже обходит неканонические URL, но не прекращает это делать.

Чтобы тег canonical работал, страницы-дубли не должны быть закрыты в robots.txt или метатегом robots, в противном случае он будет проигнорирован. Также не следует помещать на одну страницу два или более тегов canonical.

В качестве альтернативы тегу canonical можно использовать HTTP-заголовок. В частности, для указания канонических документов (не HTML-страниц). Пример:

Link: <http://www.iseo.ru/downloads/some-file.pdf>; rel="canonical"

HTTP-код ответа сервера, отличный от 200

Альтернативным решением по исключению страниц из индекса является настройка HTTP-кодов ответа сервера отличных от 200.

К примеру, у вас большое количество мусорных страниц или страниц дублей, созданных по ошибке. Они не имеют ни трафика, ни ссылок. Для таких страниц можно настроить код ответа сервера 404 или 410.

Или же на сайте были созданы две похожих по интенту страницы, мешающих друг другу ранжироваться. В таком случае для сохранения ссылочного веса и передачи прочих сигналов ранжирования (например поведенческих факторов) вы можете использовать 301-ый редирект. Таким образом, одна из страниц со временем будет удалена из выдачи.

Частный случай этого метода — закрытие доступа к сайту, папке или странице/файлу с помощью пароля. При этом боты будут получать код ответа 403. Например, таким образом можно закрыть от индексации новую версию сайта на тестовом домене.

Плюсы

  • Высокая эффективность. В отличии от метатегов и директив в robots.txt, код ответа сервера воспринимается ботом всегда, а значит, вы наверняка сможете предотвратить появление лишних страниц в индексе.
  • Возможность сохранить внешние ссылки при использовании 301-х редиректов.
  • Высокая скорость индексирования изменений. В отличии от индексации тегов, поисковые роботы, как правило, очень быстро принимают и учитывают новый код ответа сервера.

Минусы

  • Потеря веса внешних ссылок в случае настройки 5ХХ или 4ХХ ответов сервера.
  • Долгая обратимость. В случае, если вы ошибетесь при настройке, возврат 200-го кода ответа сервера может не гарантировать возврат страницы на старые позиции, а значит, может быть потерян трафик.

Удаление страниц в Яндекс.Вебмастере и Google Search Console

Для ускорения удаления страниц из поиска вы можете воспользоваться инструментами Яндекса и Google для веб мастеров:

Плюсы

  • Высокая оперативность. К примеру, из Google страницы удаляются в течение двух дней.

Минусы

  • Страницы блокируются от индексации не навсегда. Блокировка возникает на 6 месяцев для Google или на время присутствия запрещающих директив или кодов 403/404/410 для Яндекса.
  • Есть разница в работе функционала. Для Google страница должна быть доступна для сканирования. При коде ответа 404, 502 или 503 блокировка отключается, а это значит, что если страница позже появится с кодом 200, то она может быть снова добавлена в поиск. Для Яндекса же наоборот, удаление может коснуться только тех страниц, что заблокированы в robots.txt или имеют код ответа 403, 404 или 410. Если страница отдает код 200 и открыта в robots.txt, запрос будет отклонен.
  • Возможен расход краулингового бюджета на переобход заблокированных страниц.

Как отправлять страницы на индексацию/переиндексацию?

Можно не только удалять мусорные страницы, но и ускорять индексацию приоритетных. Воспользуйтесь Яндекс.Вебмастером и Google Search Console, чтобы сообщить поиску о новых страницах на вашем сайте или о появлении новых.

Для Яндекса — https://webmaster.yandex.ru/site/indexing/reindex/.

Добавьте URL в список страниц и отправьте его на переобход. Обратите внимание: для каждого сайта предусмотрен свой дневной лимит.

Переобход страниц в Яндекс.Вебмастере

Для Google — https://search.google.com/u/3/search-console/inspect.

Добавьте адрес страницы в строку и запросите индексирование:

Запрос индексирования страницы в Google Search Console

Используя данные инструменты, вы сможете:

  • Оперативно уведомлять поисковые системы о появлении новых страниц, не дожидаясь обхода краулера.
  • Сообщать ботам об изменениях на странице с целью ускоренной переиндексации контента.

Как улучшить сканирование и индексацию?

Добавление вручную страниц в консолях веб мастеров — хорошее решение для небольших сайтов. Но если у вас крупный сайт, лучше довериться поисковым роботам и упростить им работу за счет следующих решений.

Используйте XML-карту сайта

XML-карта сайта — это файл со ссылками на все страницы, которые необходимо индексировать поисковым системам.

Поисковые системы разрабатывают алгоритмы, по которым краулеры узнают о сайтах и новых страницах, к примеру, переходя по внутренним и внешним ссылкам. Но иногда боты могут пропустить какие-то страницы, или же на целевые страницы мало или нет ссылок. XML-карта решает такие проблемы, отдавая полный список URL, доступных к индексации.

Рекомендации по использованию файлов XML-карт сайта:

  • Не размещайте ссылки на закрытые от индексирования страницы.
  • Не размещайте ссылки на страницы с кодом ответа сервера, отличным от 200.
  • Используйте кодировку UTF-8.
  • Не размещайте более 50 000 ссылок в одном файле. Если страниц больше, используйте индексный файл.
  • Файл с XML-картой должен отдавать код 200 и быть доступным к обходу в robots.txt.
  • Укажите ссылку на XML-карту сайта в robots.txt. Либо добавьте ссылку на XML-карту в инструменты для вебмастеров Яндекса и Google.

После создания файла sitemap.xml следует отправить его на индексацию в Яндекс.Вебмастер и Google Search Console.

Оптимизируйте перелинковку

Внутренние ссылки — это главная артерия любого сайта. Именно по гиперссылкам переходят краулеры поисковых систем, оценивая ссылочный вес и релевантность страниц, а пользователи совершают внутренние переходы, улучшая поведенческие показатели. Далее приведем несколько примеров перелинковки.

HTML-карта сайта

Это аналог sitemap.xml, но с некоторыми отличиями:

  • В HTML-карте не всегда выводят ссылки на все страницы. Иногда только на самые важные. Например, если у вас большой интернет-магазин, то имеет смысл вывести ссылки на основные листинги товаров (категории, подборки и т. п.), но не на страницы товаров.
  • В отличие от XML-карты сайта, HTML-карта передает по ссылкам сигналы ранжирования (PagRank и т. п.). Также учитываются анкоры ссылок.
  • Сокращается вложенность страниц. Все страницы, на которые ссылается карта сайта, становятся доступны в два клика от главной страницы.

Пример небольшой карты сайта: https://www.iseo.ru/sitemap/.

Хлебные крошки

Навигационная цепочка, показывающая путь в структуре сайта от главной страницы к текущей. Пример со страницы https://shop.mts.ru/product/smartfon-apple-iphone-12-pro-max-256gb-tikhookeanskij-sinij:

Пример реализации хлебных крошек

Хлебные крошки решают следующие задачи:

  • Передают статический вес страницам более высокого уровня.
  • Улучшают юзабилити за счет понятного расположения страницы в иерархической структуре сайта.
  • Могут быть размечены с помощью Schema.org и улучшить сниппет.

Ссылки на похожие товары или статьи

Блок перелинковки похожего контента — один из вариантов ускорения индексирования новых карточек товаров, статей и новостей.

Пример блока: https://www.iseo.ru/clients/internet-magazin-mts/

Пример блока перелинковки с сайта iSEO

Чаще всего данный блок работает автоматически. В контенте уже добавленных в индекс страниц выводятся ссылки на новые страницы. На это обращает внимание краулер и совершает их обход.

Ссылки с главной страницы

Как правило, главная страница обладает самым большим статическим весом по мнению поиска, так как чаще всего на нее ведет самое большое количество ссылок. Поэтому внедрение элементов перелинковки на главной странице имеет следующие плюсы:

  • Высокая ценность таких ссылок. Страницы со ссылками с главной часто ранжируются лучше аналогичных без них.
  • Ускорение индексации новых страниц.

Рекомендуем вам пользоваться главной страницей по максимуму при построении схем перелинковки.

Внедрите поддержку IndexNow и Google Indexing API

Кроме классических решений по ускорению индексации, вы можете подключить дополнительные протоколы типа IndexNow для Яндекса или Google Indexing API.

С их помощью вы можете не дожидаться, пока бот обнаружит все ваши страницы с помощью sitemap.xml или внутренней перелинковки. Вы сами можете уведомлять поисковики об обновлении, создании новых или удалении старых страниц. Причем делать это тысячами, не расходуя лимиты и время. Однако внедрение поддержки этих протоколов, скорее всего, потребует дополнительной разработки на стороне вашего сайта.

Подробнее о технологиях:

Анонсируйте новый контент в социальных сетях

Еще одним решением по ускорению индексации являются соцсети.

Делитесь свежим контентом с пользователями в социальных сетях. Такие ссылки поисковики замечают быстрее, а значит, и контент будет проиндексирован раньше. Бонусом здесь выступает трафик, который вы можете получить из социальных сетей.

Выводы

Индексация — это отправная точка для органического трафика и продаж любого сайта. Если вы знаете, что у вас есть проблемы с индексированием, то исправляйте ошибки очень аккуратно и перепроверьте трижды результаты ваших решений.

А если вам нужна помощь экспертов, обращайтесь в нашу компанию за SEO-аудитом или поисковым продвижением вашего сайта.

Денис Яковенко

Руководитель группы SEO-специалистов

Лучший SEO блог

Все
статьи

Как выгружать данные из Google Analytics в Google Таблицы

Рассказываем про расширение Google Analytics Spreadsheet Add-on для браузера Chrome, которое позволяет выгружать данные в Google Таблицы без семплирования.

Нужно ли учитывать SEO-требования при создании и переезде сайта?

80% сайтов создаются или переезжают на новые платформы без учёта даже самых базовых SEO требований. Почему эта ошибка дорого обходится владельцам сайтов?

Индексирование сайта: что это и как им управлять

Основные принципы работы краулеров поисковых систем. Как устранить ошибки, возникающие при индексировании. Какими методами улучшить индексацию.

Как эффективно продвигать сайт в новой реальности

В конце февраля 2022 года правила игры на рынке онлайн‑рекламы сильно изменились. Рассказываем, как адаптироваться к новым реалиям и выстроить новую стратегию продвижения.

Запуск нового сайта iSEO

Добро пожаловать на наш новый сайт! Здесь вы найдёте информацию о нашем агентстве, описание наших услуг, лучшие кейсы iSEO, наш блог и контакты.

Google начинает блокировку смешанного контента

Google запускает кампанию по блокировке смешанного контента. Как это отразится на сайтах и пользователях?