Robots.txt
robots.txt (Роботс) – текстовый файл, который представляет собой один из способов регулирования индексации сайта поисковыми системами. Размещается в основном каталоге с сайтом.
Сведения и принцип работы Robots
Поисковой робот попадает на сайт и обращается к файлу Robots.txt, после анализа этого файла он получает информацию о том, какие категории (папки, разделы, страницы) веб-сайта нужно проигнорировать, а также предоставляет информацию о существующих динамичных параметрах в URL и расположении XML-карты сайта.
Данный файл позволяет убрать из поиска дубли страниц, страницы ошибок и улучшить не только позиции сайта, но и комфортность для пользователя в использовании интернет-ресурсов.
Для создания robots.txt достаточно воспользоваться любым текстовым редактором и создать файл с таким именем. Его необходимо заполнить в соответствии с определенными правилами и загрузить в корневой каталог сайта.
Директива User-agent
Управлять доступом к сайту робота Яндекса можно при помощи созданного файла.
В robots.txt проверяется наличие записей, начинающихся с 'User-agent:'. В них осуществляется поиск подстроки 'Yandex', либо '*'.
Пример:
# будет использоваться только основным индексирующим роботом User-agent: YandexBot Disallow: /*id= # будет использована всеми роботами Яндекса, кроме основного индексирующего User-agent: Yandex Disallow: /*sid= # не будет использована роботами Яндекса User-agent: * Disallow: /cgi-bin
Директива Disallow
Для запрета доступа робота к сайту целиком или его частям используется директива 'Disallow'.
Примеры:
# Пример запрета индексации сайта для поисковой системы Яндекс User-agent: Yandex Disallow: / # Пример запрета индексации страниц, начинающихся с /cgi-bin User-agent: Yandex Disallow: /cgi-bin
Директива Host
При наличии зеркала у сайта специальный робот определит их и сформирует в особую группу. В поиске будет участвовать лишь главное зеркало. В robots.txt вы можете указать имя такого зеркала. Им должно стать значение директивы 'Host'.
Пример:
# Если www.glavnoye-zerkalo.ru - главное зеркало сайта, то robots.txt # для всех сайтов из группы зеркал выглядит так User-Agent: * Disallow: /forum Disallow: /cgi-bin Host: www.glavnoye-zerkalo.ru
Директива Host должна включать следующие части:
- указание на HTTPS в случае, если зеркало доступно по защищенному каналу;
- корректное доменное имя (одно), не являющееся IP-адресом;
- номер порта (при необходимости).
Мы используем файлы «cookie» для улучшения пользования веб-сайтом, персонализации, а также в статистических и исследовательских целях. Если вы продолжите пользоваться нашим сайтом, то мы будем считать, что вы согласны с использование cookie-файлов. Подробнее - о нашей Политике по работе с персональными данными.
ПОИСКОВАЯ ОПТИМИЗАЦИЯ
САЙТОВ И SMM