Начиная серию статей об индексации сайта, прежде всего, следует рассказать о роботах поисковых систем.
Поисковой робот или краулер (от англ. crawler) - программа, являющаяся составной частью поисковой системы, которая обходит страницы Интернета, скачивает ее и заносит в базу поисковика. По своей сути краулер больше всего напоминает обычный браузер. Он сканирует содержимое страницы, забрасывает его на сервер поисковой машины, которой принадлежит, и отправляется по ссылкам на следующие страницы. Глубина проникновения поискового робота внутрь сайта обычно ограничена.
Часто вебмастера сталкиваются с вопросом о юзер-агенте (User-agent) ботов той или иной поисковой системы. Зная значения User-agent для поисковых ботов, можно запретить, либо наоборот, открыть доступ тому или иному боту.
Например, следующими строками мы запрещаем всем ботам индексировать контент, кроме бота AdSense.
Я уже писал про дублированный контент на сайте и санкции поисковых систем. На этой неделе , , объявили о введении нового атрибута ссылки canonical, который воспринимают их роботы.
Для понимания лучше привести пример.
Многие сайты имеют различные дубли одного и того же контента, представленные различными урлами.
Тема в глубом цвете http://widget.com/blue-widgets?color=blue
Версия для печати http://widget.com/print/blue-widgets/
различные ID сессии http://widget.com/blue-widgets?SESSID=123
являются дублем страницы http://widget.com/blue-widgets
Наверняка при просмотре веб-страниц в браузере Mozilla Firefox Вам встречалось блокировочное окно: Имеется информация, что этот сайт атакует компьютеры!
Собственно причиной является - наличие вредоносного скрипта в коде страницы.
Возможно, вы заметили, что я люблю таблицы в целом и Excel в частности. Когда вы просматриваете каких-либо данные в Excel, вы заметите те, на которые не обратили бы внимание ранее. Преимуществами для эффективного анализа огромных объемов информации являются:
- Функция сортировки;
- Ось таблицы;
- Параметры Поиск / замена и т.д.
Таким образом, сегодня я перечислю 6 способов экспорта информации в Excel для дальнейшей работы с ней.