Начиная серию статей об индексации сайта, прежде всего, следует рассказать о роботах поисковых систем.
Поисковой робот или краулер (от англ. crawler) - программа, являющаяся составной частью поисковой системы, которая обходит страницы Интернета, скачивает ее и заносит в базу поисковика. По своей сути краулер больше всего напоминает обычный браузер. Он сканирует содержимое страницы, забрасывает его на сервер поисковой машины, которой принадлежит, и отправляется по ссылкам на следующие страницы. Глубина проникновения поискового робота внутрь сайта обычно ограничена.
Часто вебмастера сталкиваются с вопросом о юзер-агенте (User-agent) ботов той или иной поисковой системы. Зная значения User-agent для поисковых ботов, можно запретить, либо наоборот, открыть доступ тому или иному боту.
Например, следующими строками мы запрещаем всем ботам индексировать контент, кроме бота AdSense.
Теги: crawler, индексирующие роботы, краулер