Sitemap

Файлы sitemap используются роботами поисковыми систем для правильного индексирования ресурса. Обычно краулеры справляются с этим сами, но их алгоритмы всё же не столь совершенны — хоть и постоянно улучшаются. Именно поэтому некоторые страницы могут и вовсе не появиться в индексе поисковой системы. Карта сайта решает эту проблему с помощью явного перечисления всех индексируемых страниц сайта, их «веса» (важности), частоты и даты последнего обновления.

ScreenShot020.jpg

Что такое Sitemap — и из чего он состоит?

Sitemap — это текстовый или XML-документ, в нём находится список страниц, которые должны быть проиндексированы поисковым «пауком», — и дополнительная информация о них. Из каких элементов файл сайтмап должен состоять?

1. Обязательным является сам URL страницы, которая будет проиндексирована. В XML-разметке он заключается в тег <loc></loc>.

2. Теги инкапсуляции — <urlset>, <url>, <sitemapindex>, <sitemap> (о последних двух чуть подробнее рассказано ниже).

3. Дата последнего изменения — параметр необязательный. Он используется в тех ситуациях, когда дата обновления/создания страницы не указана на самой странице или задана в непонятном для поискового робота формате. Атрибут используют, заключив дату в формате W3C в тег <lastmod></lastmod>.

4. Прогнозируемая частота изменений. Поисковые системы будут воспринимать этот параметр как рекомендацию, поэтому он также необязателен к употреблению. Параметр позволяет отделить регулярно обновляемые страницы от архивных. Тег — <changefreq>.

5. И, наконец, в контейнер <priority> заключается вес определённой страницы — от 0.0 (минимальная значимость) и до 1.0 (максимальная). Большим «весом» стоит отмечать наиболее важные для индексирования страницы сайта.

ScreenShot022.jpg

Есть и ещё одно требование, обязательно рекомендованное к исполнению. Документ robots.txt, в котором содержатся параметры индексации сайта, должен включать в себя директиву со ссылкой на Sitemap. Это поможет краулеру быстрее обнаружить карту сайта и приступить к её индексации.

Готовый sitemap выглядит примерно вот так (он слишком велик, чтобы цитировать его в тексте). Директива Sitemap, о которой упоминалось выше, указывается в robots.txt и выглядит вот так (расположена она в самом конце файла).

Индекс Sitemap — несколько сайтмапов в одном

У карты сайта есть и лимиты: не более 50.000 URL и размер не более 10 Мб без сжатия. Для большого количества страниц нужно сделать файл индекса Sitemap, содержащий в себе несколько сайтмапов. Создаётся он с помощью тегов <sitemapindex> и <sitemap>, в которые заключаются ссылки на файлы sitemap и даты их последнего изменения (опционально):

 ScreenShot021.jpg

Заключение: действительно ли sitemap.xml нужен — и стоит ли его создавать?

Споры вебмастеров по поводу этой технологии продолжаются долго. Одни считают, что сайтмап строго необходим для нормальной индексации сайта. Другие — напротив, полагают, что сайтмап при хорошей перелинковке бесполезен или даже несёт в себе только негативные последствия: дескать, он облегчает поиск контента для грабберов, которые в первую очередь ищут sitemap.xml, а битые ссылки и противоречивые инструкции в нём и в robots.txt, иногда возникающие на больших сайтах, могут привести к непредсказуемым результатам.

Результаты говорят о правоте первых: общая сумма страниц в индексе поисковых систем при создании карты сайта увеличивается (в большинстве случаев), поскольку она решает многие проблемы со структурой сайта, которые могут ввести в заблуждение краулер. Это, в свою очередь, повышает трафик сайта (по вполне очевидным причинам). Поэтому для сайтов, на которых страницы исчисляются сотнями и тысячи, сайтмап необходим.

Карта обязательна и для сайтов, построенных на технологиях, отличных от гипертекстовых. Это в первую очередь касается уже почти «ушедшего на пенсию» Flash. Сайты на нём скоро перестанут работать у половины пользователей интернета, но если вам по-прежнему требуется, чтобы страницы на нём были проиндексированы, то создание сайтмапа — весьма надёжное и безотказное решение. Также это применимо к другому контенту, генерируемому динамически: с помощью JS, например.

3.jpg

В остальных случаях решение принимаете вы. Создание карты сайта сейчас — достаточно простой процесс. Если вы пользуетесь популярными CMS, то для них совершенно точно есть плагин (и даже не один!), выполняющий эту работу за вас и поддерживающий сайтмап в должном состоянии в дальнейшем. Если у вас сайт на собственном движке или вовсе представляет набор HTML-страниц, то альтернативой ручному сбору сайтмапа является использование специальных онлайн-сервисов, которые представлены в выдаче любой поисковой системы в огромном количестве. 

После создания карты сайта рекомендуется добавить файл XML  в Яндекс.Вебмастере и Google Search Console. Обычный вид файла, например: http://имя сайта.ru/sitemap.xml

Если вы хотите быстрее проиндексировать страницы Вашего сайта, то рекомендуем загрузить карту сайта, в которой будет Главная страница и страницы, которые не находятся в индексе поисковиков, так вы сможете ускорить их индексацию.