Robots.txt

robots.txt (Роботс) – текстовый файл, который представляет собой один из способов регулирования индексации сайта поисковыми системами. Размещается в основном каталоге с сайтом.

Сведения и принцип работы Robots

Поисковой робот попадает на сайт и обращается к файлу Robots.txt, после анализа этого файла он получает информацию о том, какие категории (папки, разделы, страницы) веб-сайта нужно проигнорировать, а также предоставляет информацию о существующих динамичных параметрах в URL и расположении XML-карты сайта.

Данный файл позволяет убрать из поиска дубли страниц, страницы ошибок и улучшить не только позиции сайта, но и комфортность для пользователя в использовании интернет-ресурсов.

Для создания robots.txt достаточно воспользоваться любым текстовым редактором и создать файл с таким именем. Его необходимо заполнить в соответствии с определенными правилами и загрузить в корневой каталог сайта.

Директива User-agent

Управлять доступом к сайту робота Яндекса можно при помощи созданного файла.

В robots.txt проверяется наличие записей, начинающихся с 'User-agent:'. В них осуществляется поиск подстроки 'Yandex', либо '*'.

Пример:

# будет использоваться только основным индексирующим роботом
User-agent: YandexBot
Disallow: /*id=

# будет использована всеми роботами Яндекса, кроме основного индексирующего
User-agent: Yandex 
Disallow: /*sid=

# не будет использована роботами Яндекса
User-agent: *
Disallow: /cgi-bin

Директива Disallow

Для запрета доступа робота к сайту целиком или его частям используется директива 'Disallow'.

Примеры:

# Пример запрета индексации сайта для поисковой системы Яндекс
User-agent: Yandex
Disallow: / 

# Пример запрета индексации страниц, начинающихся  с /cgi-bin
User-agent: Yandex
Disallow: /cgi-bin  

Директива Host

При наличии зеркала у сайта специальный робот определит их и сформирует в особую группу. В поиске будет участвовать лишь главное зеркало. В robots.txt вы можете указать имя такого зеркала. Им должно стать значение директивы 'Host'.

Пример:

# Если www.glavnoye-zerkalo.ru - главное зеркало сайта, то robots.txt 
# для всех сайтов из группы зеркал выглядит так 
User-Agent: *
Disallow: /forum
Disallow: /cgi-bin
Host: www.glavnoye-zerkalo.ru

Директива Host должна включать следующие части:

  • указание на HTTPS в случае, если зеркало доступно по защищенному каналу;
  • корректное доменное имя (одно), не являющееся IP-адресом;
  • номер порта (при необходимости).