файл robots.txtФайл robots.txt устанавливается в корень сайта для поисковых роботов. Это нужно чтобы они понимали какие ссылки можно и нельзя индексировать. Правила для роботов называются директивами. Процесс индексации статей сайта автоматический. Роботы работают быстро и пребывают на сайте секунды. За это время им нужно забрать всю информацию.   Если мы не установим совсем файл, то наш сайт работать будет, но только в индексе окажутся различные технические, черновые материалы.

Файл robots.txt — стандартный

Например, страницы автора,  поиска, теги, архивы, номера страниц. Потому появится повторение одних и тех же материалов, они являются дубликатами наших статей или не каноническими документами. 

Пять лет назад, на веб. курсах «твой старт» нам дали готовый файл robots. txt. Нужно создать «текстовый документ», скопировать в него содержание и сохранить на компьютере. Долго у меня стоял, файл robots.txt, состав которого нам рекомендовали на курсах.   Для начала работы над сайтом он хорош, и ничего другого можно не устанавливать.

Однако, с течением времени произошли изменения, особенно в поисковой системе Гугл. В настоящее время 2018 году, robots.txt выглядит на сайте так, как показано у меня в конце данной статьи. Эту статью постепенно тоже редактирую, также как изменяется файл, но не убираю прошлые материалы. Мне кажется, что если показывать это файл в процессе изменений, то файл robot. txt будет понятнее начинающим блогерам.

Однако, теперь, когда плагин Yoast SEO генерирует файл sitemap на лету, уже не нужно ссылаться в robots.txt на файл Sitemap: https://ваш_сайт.ru /sitemap.xml.gz. Например, мои сайты вместо протокола http, давно переведены на безопасный протокол https. Это тоже должно отобразиться в ссылке на файл sitemap.

Файл robots.txt — значения Disallow 

Опишу значения, которые теперь знаю.

Первая строчка предназначена для роботов Google, Googlboot.

Allow* —  приветствие — путь свободен.

Звездочка обозначает свободный доступ к материалам сайта.

Все значения Disallow – представляют собой запрещения.

Disallow:/ cgi-bin – запрещение индексации каталога сервера.

Disallow: /?s= не показывать результаты поиска.

Хост -пишем  только 1 раз, это основное зеркало сайта, указывается только для Яндекса.

Host:site.ru — без «http»,  далее записываем файлы sitemap.xml.

«Sitemap:» — является ссылкой на XML-карты блога.  Раньше было таких файла 2 простой и сжатый. Звездочка * — означает последовательность символов в произвольном порядке.

Файл robots.txt — место расположения

Файл robits.txt закачиваем на хостинг, куда мы платим за наш домен и сайт. Например, у меня это Sprimthost.ru. Заходим в панель управления хостинга, переходим в файловый менеджер.

Открывается новое окно, здесь и есть корень сайта. Далее находим папку public_html и выбираем нужный сайт. Так было раньше. Сейчас переходим в файловый менеджер, выбираем сайт и он сразу открывается в папке public html.

Сюда загружаем наш   документ, для этого спускаемся в самый низ, под все списки, нажимаем  самую длинную кнопку  — «загрузить  в текущую директорию». Открывается новое окно, где и произойдет загрузка документа. Далее нужно произвести правильность установки файла. Затем нужно вернуться и проверить, как установился файл robots.txt. Возвращаемся  по тому же пути.

Файл robots.txt —ошибки  

Правильное расстояние между пуламиВначале ведения первого сайта у меня файл robots.txt  был с такой ошибкой, что не действовал совсем. Оказалось, что у меня 2 пула для роботов разъехались на большее расстояние, чем это полагается. Нужно чтобы это расстояние составляло 1 интервал, а у меня их было 2, это заметила только через полгода.

Редактирование

Однако в дальнейшем, на протяжении всего периода ведения блога, файл robots.txt приходиться постоянно редактировать для поисковой системы Яндекс.

Сервис «Яндекс вебмастер» сейчас стал открытым, для блогеров и мы можем редактировать проиндексированные страницы. Просматривать нужно все отделы, в тех случаях, где замечаем неправильную индексацию.

Запретим эти файлы правилами disallow. Например, заметили, что в индексе появились лишние страницы сайта. Например, это могут быть категорий, страницы комментариев, или страницы с медиафайлами. Запретим их, как показано ниже. Правила добавлены потому, что у меня в индексе Яндекса появились страницы вложения.

После запретов в поисковой системе Гугл появились заблокированные ресурсы.  В связи с этим для Гугла файл robots.txt пришлось совсем открыть, но установить запретительный мета -тег robots. Он  влияет на обе основные поисковые системы: Яндекс и Гугл.

Однако для Яндекса настраиваются более конкретные запреты в файле robots.txt. Считаю, что это лучше, чем это происходит с индексацией Google.  Что происходит в Гугле, блогеру почти ничего неизвестно, в настоящее время — в 2017 году.

Например, на сегодня — 10.07.2021 года мой файл robots.txt для «моего любимого блога» выглядит следующим образом.

Файл sitemap_index.xml, который находится внизу строчки, теперь не вносится в готовом виде на хостинг. Он обновляется на лету, в плагине Yoast Seo. В дальнейшем файл будет изменяться, в соответствии с индексированием в ПС Яндекс. Однако некоторые правила могут быть добавлены или удалены. Получается, что файл robots.txt имеет общие директивы на всех сайтах, но вместе с тем есть индивидуальные запреты и разрешения для каждого блога.

2021 год

В вебмастер Яндекс захожу часто, но не все вкладки там смотрю. Однако сейчас зашла в статистику и посмотрела ее с 2017 года. Обнаружилась масса запретов на важные статьи. Все дело в том, что у меня в файле запрещены категории, в пуле для Яндекса. Решила их освободить. Для этого просто удалила строчку: Disallow: /category*. Теперь буду наблюдать, что будет.

Еще заменила запреты для фидов. Они появились, потому что я удалила страницы турбо. Но, как известно фиды — это дубли. В файле robots.txt они были запрещены следующим образом:

Однако в заявках на удаление поисковые роботы отвечали -«отклонено». Меняю запись запрета для фидов.

Так будет правильно.

После этой записи, в файле robots.txt, роботы Яндекса стали удалять фиды из поиска.

 Опять изменения файла для ПС Гугл

ПС Гугл индексирует не все мои статьи. Об этом узнала в Гугл вебмастере. Стала разбираться и выяснила, что много ресурсов опять блокирует файл robots.txt. Изменяю его опять, но теперь только для Гугл, для Яндекса файл остается без изменения. Файл для Гугл выглядит, как код ниже.

После такого изменения, блокировка ресурсов была снята. Это видно по ссылкам со страниц проверки, в вебмастере Гугл.