10 самых распространенных ошибок в robots.txt

10 самых распространенных ошибок в robots.txt

20.06.2016

Зачастую при работе над сайтом оптимизатор оставляет шаблонный robots.txt и не вникает в функционал сайта, именно поэтому поисковая система может получить либо слишком большой доступ на индексацию или получить очень мало контента. В текущей статье будут разобраны десять ошибок, которые необходимо избегать при работе над настройкой оптимизации сайта.

1. Несколько запретов в одном Disallow

В каждой строке файла можно прописывать указание только на один параметр

Disallow: /css/ /js/ /images/

Такое написание делает индексацию не предсказуемой и оставляет для поискового бота полную свободу в интерпретации строки на усмотрение поискового бота, либо на игнорирование вообще.

2. Корректное название файла

Файл, управляющий индексацией, должен называться robots.txt - все буквы маленькие. Любое другое название говорит поисковому роботу, что файл отсутствует. Неправильные названия: Robots.txt, robot.txt, ROBOTS.TXT.

3. Пустота в User-agent

Директива User-agent сообщает поисковому роботу для кого пойдут следующие правила, пустота в данном случае не может быть обработана корректно.

User-agent: *

Необходимо указать звездочку(*) - если правило для всех или написать имя робота конкретной поисковой системы.

4. Полноценный адрес в директиве Host

При использовании директивы Host необходимо указывать основной индексируемый адрес без лишних слешей и без указания протокола. Корректно указывать так:

Host: yoursite.ru

Выбор указания с www или без www указывать адрес зависит от настроек сервера.

5. Использование заглавных букв в названии директорий

Это не является прямой ошибкой при создании файла robots.txt - внутри директории можно указывать любыми буквами, довольно часто на сервере к регистру чувствительны названия файлов и папок, поэтому рекомендуется все названия указывать в том формате, в котором они представлены на сервере.

6. Закрытие директории без слешей

Disallow: css

При таком написании робот не будет индексировать все, что будет называться "css" - и файл и папку. Если необходимо закрыть от индексации только папку, то следует прописать слеш перед и после названия директории:

Disallow: /css/

При таком написании папка не будет индексировать, файл - будет проиндексирован.

7. Код ответа при обращении к robots.txt

После создания файла robots.txt и размещения его в корне сайта необходимо проверить какой ответ сервера будет получен при обращении к файлу. Код ответа 200 говорит о том, что файл доступен для чтения и обработки, при любом другом коде ответа необходимо произвести дополнительную настройку сервера - вполне вероятно, что у сайта проблемы с кодом ответа.

8. Указание карты сайта

Карта сайта в формате xml позволяет ускорить процесс индексации сайта и упрощает индексацию поисковому роботу, т.к. он просто идет по адресам из подготовленного файла и не тратит мощности на самостоятельный поиск страниц. Также следует помнить, что в данной директиве необходимо указывать адрес расположения карты сайта с указанием протокола, т.е. полноценный Url:

Sitemap: http://yoursite.ru/sitemap.xml

В данном случае карта сайта лежит в корне сайта, если же она лежит в отдельной папке, то адрес необходимо указать с папкой.

9. Закрытие от индексации результатов сортировки и фильтрации

Данная проблема, как правило, возникает при работе с каталогами интернет-магазинов. Оптимизатор с целью закрыть от индексации нечеткие дубли контента закрывает всю фильтрацию от доступа поисковыми роботами. Например:

Disallow: *&sort=*

Однако такой метод борьбы с дублями является устаревшим и сайт может потерять в своем качестве с точки зрения поисковых систем. Поэтому необходимо не закрывать такие параметры от индексации, а корректно настраивать rel="canonical" - поисковый робот будет видеть данное указание и "подклеивать" вес данной страницы к основной. В результате в поиске нет дублированных страниц, но сайт корректно проиндексирован поисковыми роботами.

10. Не придумывать собственные директивы

Согласно документации любой поисковой системы, любая собственная директива, добавленная в содержимое файла, делает файл ошибочным и не позволяет поисковому роботу корректно индексировать сайт. Справочник Яндекса по анализу ошибок в файле robots.txt - ссылка.