Запрет индексации через robots.txt

Запрет индексации через robots.txt – это один из важных инструментов SEO-продвижения. Он нужен для запрета индексирования роботами поисковых систем технических страниц, конфиденциальных данных и любых страниц и файлов которым не место в индексе. Поисковые системы судят о сайте на основе тех данных, которые попали в базу. Если туда попали «рыбные» тексты, страницы с недоделанным функционалом или ошибками, то весь сайт может получить понижение позиций как плохой, ненадежный. Переиндексация может занять длительное время, так что лучше не допускать попадания в базу ненужных страниц вообще.

Общая информация о файле robots.txt

Файл robots.txt – это документ, который содержит подробные указания для поисковых роботов об индексации сайта. К нему предъявляются следующие требования:

robots.txt должен находиться в корне сайта. Отсутствие файла и контроля за индексацией приводят к индексированию закрытых данных и дублей страниц.
В нем должны быть указаны запреты на индексацию служебных страниц и страниц, содержащих личные и коммерческие данные, ссылка на файл sitemap.xml, основное зеркало сайта.
Кириллица не используется. Все кириллические записи должны быть преобразованы в Punycode.
Параметр User-Agent используется в тех случаях, когда нужно запретить или разрешить индексацию только для определенного робота или поисковой системы (например, закрыть все, кроме картинок).
Закрывает от индексации в robots.txt команда Disallow, открывает команда Allow. Команда Allow имеет более высокий приоритет, чем Disallow.

Как через robots.txt закрыть весь сайт от индексации

Запрет индексации всего сайта через robots.txt обычно применяется во время разработки или редизайна сайта.

Чтобы закрыть сайт от индексации всеми поисковыми системами, необходимо сделать запись:

User-agent: *
Disallow: /

Чтобы в robots.txt закрыть сайт от индексации поисковой системой, к примеру, Яндекс, то запись будет иметь следующий вид:

User-agent: Yandex
Disallow: /

Как закрыть отдельные страницы, директории и файлы

В robots.txt можно закрыть от индексации или открыть для поисковой системы отдельные файлы и директории (к примеру, если вы добавляете товары в определенный раздел каталога и не хотите пока, чтобы туда заходили люди). Также эта команда нужна для того чтобы убрать из индекса разнообразные служебные страницы, страницы с конфиденциальной информацией, дубликаты страниц, логи, статистику и др.

В этом случае команда будет выглядеть следующим образом:

User-agent: *
Disallow: /folder/ #закрываем папку
Аllow: /folder/file.php #открываем отдельный файл в закрытой папке
Disallow: *.jpg #закрываем картинки с расширением .jpg

Как закрыть страницу от индексации через мета-тег?

Файл robots.txt содержит в себе рекомендации для поисковых систем, поэтому поисковик может их не выполнять. Наибольшим приоритетом считается использование мета-тега robots. Запись выглядит следующим образом:

<head>
<meta name="robots" content="noindex"/>
# Или:
<meta name="robots" content="none"/>
</head>

Вместо «robots» можно использовать имя конкретного поискового робота (альтернатива User-Agent):

<meta name="googlebot" content="noindex"/>
<meta name="yandex" content="none"/>

Поддержание гигиены сайта и своевременное закрытие ненужных страниц – это очень важно, поэтому не стоит полностью игнорировать ни мета-теги, ни robots.txt!