10+ примеров правильного закрытия от индексации

10+ примеров правильного закрытия от индексации

17.11.2016

Как правильно закрыть сайт, страницу, файлы от индексации поисковыми роботами? Как правильно настроить robots.txt?

Необходимость скрывать сайт от индексации поисковыми роботами встречается довольно часто. Причины всегда разные - разработка языковой версии, редизайн и в целом обновление сайта. Задача борьбы с дублями в поиске в данном случае весьма актуальна.

Основным файлом, управляющим доступом поисковых роботов к сайту, является robots.txt. Он должен находится в корне сайта и доступен по адресу sitename.ru/robots.txt.

Примеры управления индексацией

Полное закрытие сайта от индексации любыми роботами:

User-agent: *
Disallow: /

Закрытие сайта от индексации только для роботов Яндекс:

User-agent: Yandex
Disallow: /

Закрытие сайта от индексации только для роботов Google:

User-agent: Googlebot
Disallow: /

Индексация папок и файлов

Файл robots.txt позволяет управлять индексацией отдельных разделов и файлов сайта. Закрываем папку на сайте от индексации:

User-agent: *
Disallow: /papka/

Бывает ситуация, когда необходимо разрешить индексацию только одного файла в папке, для этого есть директива Allow:

User-agent: *
Аllow: /papka/kopat.html
Disallow: /papka/

Закрываем от индексации отдельный файл:

User-agent: *
Disallow: /papka/kopat.html

Управление индексацией картинок

Иногда в целях закрытия картинок от копирования имеет смысл закрыть к ним доступ, чтобы изображения нельзя было найти в вертикальном поиске по изображениям в поисковых системах. Закроем от индексации все популярные форматы изображений:

User-Agent: *
Disallow: *.jpg
Disallow: *.jpeg
Disallow: *.png
Disallow: *.gif

Закрытие от индексации параметров URL

Довольно часто необходимо закрыть от индексации все URL на сайте, содержащие определенные значения в URL, например все страницы, которые в URL содержат "test":

User-Agent: *
Disallow: *test*

Индексация поддоменов

Для каждого поддомена необходимо в его папке создать отдельный файл robots.txt. В индивидуальном порядке для каждого поддомена необходимо настраивать индексацию. Не рекомендуем создавать сложные программые решения генерации файла robots.txt - по нашему опыту статический файл банально надежнее.

CDN и индексация

Дублирование части данных на поддоменах, настроенных для использования технологии CDN, может стать значительной проблемой при продвижении сайта. Если есть возможность необходимо настроить работу тега link - корректный rel="canonical" позволит корректно все проиндексировать. Если такой возможности нет, то закрываем все от индексации стандартным способом в robots.txt.

Тонкая настройка для SEO

Для поисковых систем более корректным указанием закрытия от индексации является настройка мета тега robots. Такой вариант является более предпочтительным, т.к. это прямое указание на странице. Google расценивает файл robots.txt как рекомендацию и не всегда следует им. Довольно часто в выдаче Google можно обнаружить файлы, закрытые от индексации.

<meta name="robots" content="noindex, nofollow"/> - полное закрытие от индексации
<meta name="robots" content="index, nofollow"/> - робот сканирует контент, но не переходит по ссылкам
<meta name="robots" content="noindex, follow"/> - робот переходит по ссылкам, но не сканирует контент
<meta name="googlebot" content="noindex, nofollow"/> - полное закрытие от индексации страницы для Google
<meta name="yandex" content="noindex, nofollow"/> - полное закрытие от индексации страницы для Яндекс