Индексация

Индексация (индексирование) – процесс добавления информации о сайте в базу данных, который выполняется роботом поисковой системы.

Методы индексации

Латентно-семантический анализ (ЛСА). Данный метод обрабатывает информацию на естественном языке. Такой анализ позволяет исследовать взаимосвязь между коллекцией документов и терминами, которые встречаются в них, сопоставлять некоторые тематики (факторы) всем терминам и документам. При классификации документов метод применяется для извлечения значений лексических единиц (контекстно-зависимых) с помощью статистической обработки больших объемов текстов.

Вероятностный латентно-семантический анализ (ВЛСА). Данный метод заключается в статическом анализе корреляции двух типов данных. Применяется в информационном поиске, машинном обучении, обработке естественного языка.

Методы ускорения индексации

  • Добавление ресурса в поисковые системы, в социальные закладки.
  • Регистрация сайта в известных каталогах, в «Яндекс. Вебмастер»
  • Внутренняя перелинковка страниц.
  • Создание правильной структуры сайта, заключающейся в простом пути до любой страницы (максимум за 3 клика).
  • Создание e-mail рассылки со ссылками на сайт.
  • Ведение блога.
  • RSS-трансляция.

Методы ограничения индексации

  • Запрет в файле Robots.txt. Данный инструмент является самым простым в отношении внедрения. Он заключается в принудительном запрете индексации. Позволяет оградить контент от индексации.
  • Включение мета-тега noindex. Позволяет блокировать доступ только к одной странице.
  • Защита паролем. Позволяет отсечь доступ к контенту со стороны поисковых ботов.
  • Статус для сервера в заглавной части ресурса – редирект 301. Установка редиректа позволяет перенаправлять запросы от пользователей и поисковых ботов на новую страницу.

Применяются и другие средства блокировки.