Запрет индексации через robots.txt – это один из важных инструментов SEO-продвижения. Он нужен для запрета индексирования роботами поисковых систем технических страниц, конфиденциальных данных и любых страниц и файлов которым не место в индексе. Поисковые системы судят о сайте на основе тех данных, которые попали в базу. Если туда попали «рыбные» тексты, страницы с недоделанным функционалом или ошибками, то весь сайт может получить понижение позиций как плохой, ненадежный. Переиндексация может занять длительное время, так что лучше не допускать попадания в базу ненужных страниц вообще.
Файл robots.txt – это документ, который содержит подробные указания для поисковых роботов об индексации сайта. К нему предъявляются следующие требования:
robots.txt должен находиться в корне сайта. Отсутствие файла и контроля за индексацией приводят к индексированию закрытых данных и дублей страниц.
В нем должны быть указаны запреты на индексацию служебных страниц и страниц, содержащих личные и коммерческие данные, ссылка на файл sitemap.xml, основное зеркало сайта.
Кириллица не используется. Все кириллические записи должны быть преобразованы в Punycode.
Параметр User-Agent используется в тех случаях, когда нужно запретить или разрешить индексацию только для определенного робота или поисковой системы (например, закрыть все, кроме картинок).
Закрывает от индексации в robots.txt команда Disallow, открывает команда Allow. Команда Allow имеет более высокий приоритет, чем Disallow.
Запрет индексации всего сайта через robots.txt обычно применяется во время разработки или редизайна сайта.
Чтобы закрыть сайт от индексации всеми поисковыми системами, необходимо сделать запись:
User-agent: *
Disallow: /
Чтобы в robots.txt закрыть сайт от индексации поисковой системой, к примеру, Яндекс, то запись будет иметь следующий вид:
User-agent: Yandex
Disallow: /
В robots.txt можно закрыть от индексации или открыть для поисковой системы отдельные файлы и директории (к примеру, если вы добавляете товары в определенный раздел каталога и не хотите пока, чтобы туда заходили люди). Также эта команда нужна для того чтобы убрать из индекса разнообразные служебные страницы, страницы с конфиденциальной информацией, дубликаты страниц, логи, статистику и др.
В этом случае команда будет выглядеть следующим образом:
User-agent: *
Disallow: /folder/ #закрываем папку
Аllow: /folder/file.php #открываем отдельный файл в закрытой папке
Disallow: *.jpg #закрываем картинки с расширением .jpg
Файл robots.txt содержит в себе рекомендации для поисковых систем, поэтому поисковик может их не выполнять. Наибольшим приоритетом считается использование мета-тега robots. Запись выглядит следующим образом:
<head>
<meta name="robots" content="noindex"/>
# Или:
<meta name="robots" content="none"/>
</head>
Вместо «robots» можно использовать имя конкретного поискового робота (альтернатива User-Agent):
Поддержание гигиены сайта и своевременное закрытие ненужных страниц – это очень важно, поэтому не стоит полностью игнорировать ни мета-теги, ни robots.txt!<meta name="googlebot" content="noindex"/>
<meta name="yandex" content="none"/>
Спасибо!
Наш менеджер свяжется с Вами в ближайшее время
А ваш сайт уже готов к продвижению?
Спешите! Закажите бесплатный аудит, чтобы узнать техническую готовность вашего сайта к продвижению
Обратный звонок
Заполните форму и мы свяжемся с Вами в ближайшее время