- Зачем нужен robots.txt?
- Основные директивы файла robots.txt
- Как создать robots.txt?
- Как проверить файл?
- Проверка robots.txt в Яндекс.Вебмастер
- Алексей Губерман, руководитель отдела поисковой оптимизации в компании «Ашманов и партнеры»:
- Проверка robots.txt в Google Robots Testing Tool
- Советы по созданию robots.txt
- Группируйте директивы
- Учитывайте регистр в названии файла
- Не указывайте несколько каталогов в одной директиве
- Убирайте лишние директивы
- Как проверить robots.txt онлайн
- Что делать, если не работает reCAPTCHA?
- Способ 1: обновляем браузер
- Способ 2: отключаем VPN или прокси
- Способ 3: сброс кэша IP
- Способ 4: сканируем компьютер на наличие вирусов
- Способ 5: сбрасываем настройки браузера
Зачем нужен robots.txt?
Файл robots.txt — служебный файл, содержащий информацию о том, какие страницы сайта доступны для сканирования поисковыми роботами, а какие — нет. Он не является обязательным элементом, но от его наличия зависит скорость индексации страниц и положение ресурса в результатах поиска.
С помощью robots.txt можно установить уровень доступа роботов-обходчиков к сайту и его разделам: полностью запретить индексирование или ограничить обход отдельных папок, страниц, файлов, а также закрыть ресурс для роботов, не относящихся к основному поисковые системы сайта.
Таким образом, создание и правильная настройка robots.txt поможет ускорить процесс индексации сайта, снизит нагрузку на сервер и положительно скажется на рейтинге сайта в поисковой выдаче.
Основные директивы файла robots.txt
Чтобы поисковые роботы правильно читали robots.txt, он должен быть составлен по определенным правилам. Структура служебного файла содержит следующие директивы:
- Пользовательский агент. Директива user-agent определяет степень открытости сайта для поисковых роботов. Здесь вы можете открыть доступ ко всем поисковым системам или разрешить сканирование только определенным поисковым роботам. Для неограниченного доступа достаточно установить символ «*», для конкретных роботов нужно добавить отдельные директивы.
Пример:
User-agent: * — сайт доступен для индексации всеми сканерами
Агент пользователя: Яндекс — доступ открыт только для роботов Яндекса
Пользовательский агент: Googlebot — доступ открыт только для роботов Google - Не допускается. Директива Disallow определяет, какие страницы сайта должны быть заблокированы от индексации. Как правило, весь контент сервиса закрыт для сканирования, но при желании вы можете скрыть другие части проекта. Подробнее о том, какие страницы и сайты не нуждаются в индексации, вы можете прочитать в статье: «Как заблокировать сайт от индексации в robots.txt». Учтите, что даже если на сайте нет страниц, которые вы хотите закрыть, директиву все равно нужно написать, но без указания значения. В противном случае поисковые роботы могут неправильно прочитать файл robots.txt.
Пример 1:
User-agent: * — приведенные ниже правила распространяются на все краулеры
Disallow: /wp-admin — служебная папка со всеми вложениями закрыта для индексацииПример 2:
Пользовательский агент: Яндекс — приведенные ниже правила распространяются на роботов Яндекса
Disallow: / — все разделы сайта доступны для индексации - Позволять. Директива Allow определяет, какие части веб-сайта доступны для сканирования поисковыми роботами. Поскольку все, что не запрещено директивой Disallow, автоматически индексируется, то здесь достаточно написать только исключения из правил. Нет необходимости указывать все части веб-сайта, доступные для поисковых роботов.
Пример 1:
User-agent: * — приведенные ниже правила распространяются на все краулеры
Disallow: / — страница полностью закрыта для всех сканеров
Разрешить: /catalog — раздел «Каталог» открыт для всех поисковых роботовПример 2:
User-agent: * — приведенные ниже правила распространяются на все краулеры
Disallow: / — страница полностью закрыта для всех сканеров
Пользовательский агент: Googlebot — приведенные ниже правила применяются к роботам Googlebot
Разрешить: / — сайт полностью открыт для роботов Google - Карта сайта. Директива sitemap — это карта сайта, которая представляет собой полную ссылку на файл .xml и содержит список всех страниц, доступных для сканирования, а также время и частоту их обновления.
Пример:
Карта сайта: https://site.ru/sitemap.xml
Как создать robots.txt?
Служебный файл robots.txt можно создать в текстовом редакторе Notepad++ или другой подобной программе. Весь текст внутри файла должен быть написан латиницей, русские названия можно перевести любым конвертером Punycode. Выберите ASCII или UTF-8 для кодировки файла.
Чтобы robots.txt правильно индексировался поисковыми роботами, при создании файла придерживайтесь следующих рекомендаций:
- Сгруппируйте директивы вместе. Чтобы избежать путаницы и сократить время индексации, сгруппируйте директивы в блоки для каждого поискового робота и разделите блоки пустой строкой. Так роботу-краулеру не нужно сканировать весь файл в поисках нужных инструкций, робот быстро найдет предназначенную для него строку юзер-агента и, следуя инструкциям, проверит указанные части сайта.
- Обратите внимание на реестр. Введите имя файла строчными буквами. Если Яндекс сообщает, что регистр не имеет значения для поисковых роботов, Google рекомендует различать прописные и строчные буквы.
- Не указывайте несколько папок в одной директиве. Не объединяйте несколько папок/файлов в одну директиву Disallow. Создайте отдельную директиву для каждого раздела и файла. Это позволит избежать ошибок при проверке и ускорит процесс индексации.
- Работа с разными уровнями. В robots.txt можно указать настройки на трех уровнях: сайт, страница, папка. Используйте эту опцию, если хотите заблокировать некоторые материалы от поисковых систем.
- Удалите неактуальные директивы. Некоторые директивы robots.txt устарели и игнорируются поисковыми роботами. Удалите их, чтобы не засорять файл. В настоящее время директивы Host (зеркало сайта), Crawl-Delay (пауза между запросами сканера), Clean-param (ограничение дублированного контента) устарели).
- Проверьте, совпадают ли sitemap.xml и robots.txt. Файлы sitemap.xml и robots.txt дополняют друг друга. Проверьте, совпадает ли информация в них и чтобы карта местности была включена в одноименную директиву.
После создания robots.txt убедитесь, что его размер не превышает 32 КБ. Если файл большой, поисковые роботы Яндекса его не примут.
Поместите robots.txt в корневой каталог вашего сайта рядом с вашим основным файлом index.html. Для этого используйте FTP-доступ. Если сайт создан на CMS, работать с файлом можно через панель администрирования.
Сравните условия с текущим подрядчиком Если вас не устраивают результаты работы или условия сотрудничества с текущим подрядчиком, напишите нам — мы подготовим для вас коммерческое предложение или проведем аудит контекстной рекламы. Сравните стоимость услуг, оцените прогноз и выберите исполнителя с лучшими условиями. Оставить заявку
Как проверить файл?
Убедиться в правильности компиляции файла можно с помощью инструментов Яндекс.Вебмастер и Google Robots Testing Tool. Поскольку каждая система проверяет robots.txt на основе собственных критериев, проверка должна выполняться для обеих служб.
Проверка robots.txt в Яндекс.Вебмастер
При первом запуске Яндекс.Вебмастера вам необходимо создать личный кабинет, добавить сайт и подтвердить свои права на него. После этого вы получите доступ к инструментам сервиса. Для проверки файла перейдите в раздел «Инструменты», подраздел «Анализ Robots.txt» и начните тестирование. Если при проверке сервис обнаружит ошибки, он покажет, какие строки нужно исправить и что нужно исправить.
Алексей Губерман, руководитель отдела поисковой оптимизации в компании «Ашманов и партнеры»:
«В разделе «Анализ robots.txt» вы также можете «протестировать» написание директив и их влияние на статус индексации. Если вы сомневаетесь в правильности написания директив, введите в поле «Разрешены ли URL-адреса?» нужно, а затем Веб-мастер покажет вам статус индексации этих адресов с указанным robots.txt.».
Проверка robots.txt в Google Robots Testing Tool
Вы можете проверить robots.txt в Google в панели администратора Search Console. Просто перейдите на тестовую страницу, и система автоматически проверит файл. Если вы видите на странице устаревшую версию robots.txt, нажмите кнопку «Отправить» и следуйте инструкциям поисковой системы. Если Google найдет ошибки, вы сможете исправить их в сервисе отзывов. Однако обратите внимание, что система не сохраняет изменения автоматически. Чтобы исправления не пропали, их нужно сделать вручную на хостинге или в панели администрирования CMS и сохранить.
Советы по созданию robots.txt
Чтобы файл правильно читался поисковиками, он должен быть составлен по определенным правилам. Даже детали (падеж, абзац, написание) играют важную роль. Давайте рассмотрим несколько основных советов по форматированию текстового документа.
Группируйте директивы
Если вы хотите установить разные правила для отдельных краулеров, вам нужно создать в файле несколько блоков (групп) правил и разделить их пустой строкой. Это нужно для того, чтобы не было путаницы, и каждому роботу не нужно было сканировать весь документ в поисках подходящих инструкций. Если правила сгруппированы и разделены пустой строкой, бот находит нужную строку агента пользователя и следует инструкциям. Пример:
Учитывайте регистр в названии файла
Для некоторых поисковых систем не имеет значения, какими буквами (заглавными или строчными) будет введено название файла robots.txt. Но для Google, например, это важно. Поэтому имя файла желательно писать строчными буквами, а не Robots.txt или ROBOTS.TXT.
Не указывайте несколько каталогов в одной директиве
Для каждого раздела/файла необходимо указать отдельную директиву Disallow. Это означает, что вы не можете написать Disallow: /cgi-bin/ /authors/ /css/ (это три папки в одной строке). Для каждого нужно написать свою директиву Disallow:
Запретить: /cgi-bin/ Запретить: /authors/ Запретить: /css/
Убирайте лишние директивы
Некоторые директивы robots.txt считаются устаревшими и необязательными: Host (зеркало сайта), Crawl-Delay (пауза между поисковыми роботами), Clean-param (ограничить дублирование контента). Вы можете удалить эти директивы, чтобы сохранить файл в чистоте.
Читайте также: Zfgamebrowser exe что это
Как проверить robots.txt онлайн
Чтобы убедиться, что файл составлен правильно, вы можете использовать веб-инструменты Яндекса, Google или онлайн-сервисы (PR-CY, Website Planet и т д.). У Яндекса и Google свои правила проверки robots.txt. Поэтому файл надо проверять дважды: и в Яндексе, и в Гугле.
Яндекс.Вебмастер
Если вы впервые пользуетесь сервисом Яндекс.Вебмастер, вам необходимо предварительно добавить свой сайт и подтвердить права на него. После этого вы получите доступ к инструментам анализа SEO-показателей сайтов и продвижения в Яндекс.
Как проверить robots.txt с помощью валидатора Яндекса:
- Зайдите в свой аккаунт на Яндекс.Вебмастере.
- Выберите Инструменты → Анализ Robots.txt в меню слева.
- Содержимое нужного файла будет автоматически вставлено. Если по каким-то причинам этого не произошло, скопируйте код, вставьте его в поле и нажмите Проверить:
- Ниже представлены результаты испытаний. Если в директивах есть ошибки, сервис покажет, какую строку нужно исправить и опишет проблему:
Консоль поиска Google
Чтобы проверить с помощью Google:
- Перейдите на страницу средства проверки.
- Если на открывшейся странице указана устаревшая версия файла robots.txt, нажмите кнопку «Отправить» и следуйте инструкциям Google:
- Через несколько минут вы можете обновить страницу. Текущие директивы появятся в поле. Предупреждения/ошибки (если система их обнаружит) будут перечислены под кодом.
Проверка Google robots.txt не выявила ошибок
Обратите внимание, что изменения, которые вы вносите в службу проверки, не применяются автоматически к файлу robots.txt. Необходимо ввести исправленный код вручную на хостинге или в админке CMS и сохранить изменения.
Что делать, если не работает reCAPTCHA?
Начнем с самых эффективных и простых в реализации. Так что постепенно рассмотрим все способы, а сейчас самый последний — сброс настроек.
Способ 1: обновляем браузер
Для обновления браузеров на базе Chromium (Chrome, Opera и др.) достаточно открыть соответствующую страницу. Вот ссылка на него в Chrome. Альтернативный способ — открыть главное меню браузера и выбрать там:
- Гугл Хром. «Помощь» — «О браузере Google Chrome».
- Опера. «Обновление и восстановление».
- Fire Fox. «О Firefox».
На следующей вкладке запустится поиск последних версий браузера и появится кнопка, если есть возможность его обновить.
Способ 2: отключаем VPN или прокси
Настройка службы VPN может блокировать просмотр определенного контента или загрузку данных с определенных IP-адресов. Если это проблема, временное отключение таких служб поможет.
Способ 3: сброс кэша IP
Если IP уже приобрел плохую репутацию и все сервисы признают его подозрительным, может помочь сброс. Об этом свидетельствует тот факт, что reCAPTCHA работает не во всех браузерах.
Как это сделать:
- Щелкните правой кнопкой мыши «Пуск» и выберите «Командная строка».
- Введите следующие команды одну за другой, нажимая Enter после каждой:
- netsh сброс винсока
- netsh int ip сброс
- ipconfig/выпуск
- ipconfig/обновить
Остается только перезапустить браузер.
Способ 4: сканируем компьютер на наличие вирусов
Возможно, в систему проникло вредоносное ПО. Это легко исправить всеми популярными антивирусными программами. Даже Защитник Windows должен справиться с этой задачей.
Способ 5: сбрасываем настройки браузера
Это должно сработать для большинства пользователей, но лучше заранее включить синхронизацию данных с сервером и удалить учетную запись. Принцип сброса прост:
- Зайдите в «Настройки» в браузере через главное меню.
- Прокручиваем список до конца, для этого нужно открыть «Дополнительные настройки».
- Нажмите на пункт «Восстановить настройки по умолчанию» или «Сбросить».
- Подтверждаем намерение.