Файл robots txt настройки директивы как редактировать

Файл robots.txt устанавливается в корень сайта для поисковых роботов. Это нужно чтобы они понимали какие ссылки можно и нельзя индексировать. Правила для роботов называются директивами. Процесс индексации статей сайта автоматический. Роботы работают быстро и пребывают на сайте секунды. За это время им нужно забрать всю информацию.

Файл robots.txt — стандартный

Если мы не установим совсем файл, то наш сайт работать будет, но только в индексе окажутся различные технические, черновые материалы. Например, страницы автора, поиска, теги, архивы, номера страниц. Потому появится повторение одних и тех же материалов, они являются дубликатами наших статей или не каноническими документами.

Пять лет назад, на веб. курсах «твой старт» нам дали готовый файл robots. txt. Нужно создать «текстовый документ», скопировать в него содержание и сохранить на компьютере. Долго у меня стоял, файл robots.txt, состав которого нам рекомендовали на курсах. Для начала работы над сайтом он хорош, и ничего другого можно не устанавливать.

Однако, с течением времени произошли изменения, особенно в поисковой системе Гугл. В настоящее время 2018 году, robots.txt выглядит на сайте так, как показано у меня в конце данной статьи. Эту статью постепенно тоже редактирую, также как изменяется файл, но не убираю прошлые материалы. Мне кажется, что если показывать это файл в процессе изменений, то файл robot. txt будет понятнее начинающим блогерам.

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag

User-agent: Yandex
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Host: ваш_сайт.ru
Sitemap: http://ваш_сайт.ru /sitemap.xml.gz
Sitemap: http://ваш_сайт.ru /sitemap.xml

User-agent: *

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /trackback

Disallow: */trackback

Disallow: */*/trackback

Disallow: */*/feed/*/

Disallow: */feed

Disallow: /*?*

Disallow: /tag

User-agent: Yandex

Disallow: /wp-admin

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

Disallow: /trackback

Disallow: */trackback

Disallow: */*/trackback

Disallow: */*/feed/*/

Disallow: */feed

Disallow: /*?*

Disallow: /tag

Host: ваш_сайт.ru

Sitemap: http://ваш_сайт.ru /sitemap.xml.gz

Sitemap: http://ваш_сайт.ru /sitemap.xml

Однако, теперь, когда плагин Yoast SEO генерирует файл sitemap на лету, уже не нужно ссылаться в robots.txt на файл Sitemap: https://ваш_сайт.ru /sitemap.xml.gz. Например, мои сайты вместо протокола http, давно переведены на безопасный https. Это тоже должно отобразиться в ссылке на файл sitemap.

Файл robots.txt — значения Disallow

Опишу значения, которые теперь знаю.

Первая строчка предназначена для роботов Google, Googlboot.

Allow* — приветствие — путь свободен.

Звездочка обозначает свободный доступ к материалам сайта.

Все значения Disallow – представляют собой запрещения.

Disallow:/ cgi-bin – запрещение индексации каталога сервера.

Disallow: /?s= не показывать результаты поиска.

Хост -пишем только 1 раз, это основное зеркало сайта, указывается только для Яндекса.

Host:site.ru — без «http», далее записываем файлы sitemap.xml.

«Sitemap:» — является ссылкой на XML-карты блога. Раньше было таких файла 2 простой и сжатый. Звездочка * — означает последовательность символов в произвольном порядке.

Файл robots.txt — место расположения

Файл robits.txt закачиваем на хостинг, куда мы платим за наш домен и сайт. Например, у меня это Sprimthost.ru. Заходим в панель управления хостинга, переходим в файловый менеджер.

Открывается новое окно, здесь и есть корень сайта. Далее находим папку public_html и выбираем нужный сайт. Так было раньше. Сейчас переходим в файловый менеджер, выбираем сайт и он сразу открывается в папке public html.

Сюда загружаем наш документ, для этого спускаемся в самый низ, под все списки, нажимаем самую длинную кнопку — «загрузить в текущую директорию». Открывается новое окно, где и произойдет загрузка документа. Далее нужно произвести правильность установки файла. Затем нужно вернуться и проверить, как установился файл robots.txt. Возвращаемся по тому же пути.

Файл robots.txt —ошибки

Вначале ведения первого сайта у меня файл robots.txt был с такой ошибкой, что не действовал совсем. Оказалось, что у меня 2 пула для роботов разъехались на большее расстояние, чем это полагается. Нужно чтобы это расстояние составляло 1 интервал, а у меня их было 2, это заметила только через полгода.

Редактирование

Однако в дальнейшем, на протяжении всего периода ведения блога, файл robots.txt приходиться постоянно редактировать для поисковой системы Яндекс.

Сервис «Яндекс вебмастер» сейчас стал открытым, для блогеров и мы можем редактировать проиндексированные страницы. Просматривать нужно все отделы, в тех случаях, где замечаем неправильную индексацию.

Запретим эти файлы правилами disallow. Например, заметили, что в индексе появились лишние страницы сайта. Например, это могут быть категорий, страницы комментариев, или страницы с медиафайлами. Запретим их, как показано ниже. Правила добавлены потому, что у меня в индексе Яндекса появились страницы вложения.

Disallow: */attachment/*
Disallow:/?attachment_id

1 2	Disallow: /attachment/ Disallow:/?attachment_id

После запретов в поисковой системе Гугл появились заблокированные ресурсы. В связи с этим для Гугла файл robots.txt пришлось совсем открыть, но установить запретительный мета -тег robots. Он влияет на обе основные поисковые системы: Яндекс и Гугл.

Однако для Яндекса настраиваются более конкретные запреты в файле robots.txt. Считаю, что это лучше, чем это происходит с индексацией Google. Что происходит в Гугле, блогеру почти ничего неизвестно, в настоящее время — в 2017 году.

Например, на сегодня — 10.07.2021 года мой файл robots.txt для «моего любимого блога» выглядит следующим образом.

User-agent: *
Disallow:*/wp-admin
Allow:*/admin-ajax.php

User-agent: Yandex
Disallow: /wp-admin
Disallow:*/karta-sajta
Disallow:/karta-sajta/?pg=
Disallow: /xmlrpc.php
Disallow: /wp-content/uploads
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /rezervnye-obyavleniya
Disallow: /trackback/
Disallow: /tag/
Disallow:/category/
Disallow:/page/
Disallow:/*wp-json
Disallow:/?utm_source=feedburner&utm
Disallow: /*?*
Disallow: /?s=
Disallow:/?p=
Disallow: /poisk.html$
Disallow:/*?*
Disallow: */feed
Disallow:/feed/
Disallow:/amp/
Disallow:/author/admin/page/*
Disallow:/autor/admin/*
Disallow:*/comments
Disallow:*/comment-page
Disallow:*/optimizatsiya/
Disallow:*/sitemap.hml
Disallow:*/seo/
Disallow:*/obzory-statej-interneta/
Disallow:*http://sites.reformal.ru/m
oylubimiblog.ru
Disallow:*http://www.urlw.ru/w.moylu
bimiblog.ru
Disallow:*http://www.sbup.com/audit/
moylubimiblog.ru/
Disallow:*https://moylubimiblog.ru/p
rodvizhenie-sajta/
Disallow:*https://moylubimiblog.ru/z
arabotok-na-sajte/
Disallow:*https://moylubimiblog.ru/a
naliz-sajta/yandeks-metrika/
Disallow:*https://moylubimiblog.ru/r
ubrika-komputernie-programmy/
Host: https://moylubimiblog.ru

Sitemap:https://moylubimiblog.ru/sitemap_index.xml

User-agent: *

Disallow:*/wp-admin

Allow:*/admin-ajax.php

User-agent: Yandex

Disallow: /wp-admin

Disallow:*/karta-sajta

Disallow:/karta-sajta/?pg=

Disallow: /xmlrpc.php

Disallow: /wp-content/uploads

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /rezervnye-obyavleniya

Disallow: /trackback/

Disallow: /tag/

Disallow:/category/

Disallow:/page/

Disallow:/*wp-json

Disallow:/?utm_source=feedburner&utm

Disallow: /*?*

Disallow: /?s=

Disallow:/?p=

Disallow: /poisk.html$

Disallow:/*?*

Disallow: */feed

Disallow:/feed/

Disallow:/amp/

Disallow:/author/admin/page/*

Disallow:/autor/admin/*

Disallow:*/comments

Disallow:*/comment-page

Disallow:*/optimizatsiya/

Disallow:*/sitemap.hml

Disallow:*/seo/

Disallow:*/obzory-statej-interneta/

Disallow:*http://sites.reformal.ru/m

oylubimiblog.ru

Disallow:*http://www.urlw.ru/w.moylu

bimiblog.ru

Disallow:*http://www.sbup.com/audit/

moylubimiblog.ru/

Disallow:*https://moylubimiblog.ru/p

rodvizhenie-sajta/

Disallow:*https://moylubimiblog.ru/z

arabotok-na-sajte/

Disallow:*https://moylubimiblog.ru/a

naliz-sajta/yandeks-metrika/

Disallow:*https://moylubimiblog.ru/r

ubrika-komputernie-programmy/

Host: https://moylubimiblog.ru

Sitemap:https://moylubimiblog.ru/sitemap_index.xml

Файл sitemap_index.xml, который находится внизу строчки, теперь не вносится в готовом виде на хостинг. Он обновляется на лету, в плагине Yoast Seo. В дальнейшем файл будет изменяться, в соответствии с индексированием в ПС Яндекс. Однако некоторые правила могут быть добавлены или удалены. Получается, что файл robots.txt имеет общие директивы на всех сайтах, но вместе с тем есть индивидуальные запреты и разрешения для каждого блога.

2021 год

В вебмастер Яндекс захожу часто, но не все вкладки там смотрю. Однако сейчас зашла в статистику и посмотрела ее с 2017 года. Обнаружилась масса запретов на важные статьи. Все дело в том, что у меня в файле запрещены категории, в пуле для Яндекса. Решила их освободить. Для этого просто удалила строчку: Disallow: /category*. Теперь буду наблюдать, что будет.

Еще заменила запреты для фидов. Они появились, потому что я удалила страницы турбо. Но, как известно фиды — это дубли. В файле robots.txt они были запрещены следующим образом:

Disallow: /?feed=
Disallow:/feed/

1 2	Disallow: /?feed= Disallow:/feed/

Однако в заявках на удаление поисковые роботы отвечали -«отклонено». Меняю запись запрета для фидов.

Так будет правильно.

Disallow: */feed
Disallow: /feed

1 2	Disallow: */feed Disallow: /feed

После этой записи, в файле robots.txt, роботы Яндекса стали удалять фиды из поиска.

Опять изменения файла для ПС Гугл

ПС Гугл индексирует не все мои статьи. Об этом узнала в Гугл вебмастере. Стала разбираться и выяснила, что много ресурсов опять блокирует файл robots.txt. Изменяю его опять, но теперь только для Гугл, для Яндекса файл остается без изменения. Файл для Гугл выглядит, как код ниже.

User-agent: Mediapartners-Google
Allow: /*/<папка содержащая css>/*.css
Allow: /*/<папка содержащая js>/*.js
Disallow:
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /wp-admin
Disallow: /wp-content/cache
Disallow: /xmlrpc.php

User-agent: Mediapartners-Google

Allow: /*/<папка содержащая css>/*.css

Allow: /*/<папка содержащая js>/*.js

Disallow:

User-agent: *

Disallow: /cgi-bin

Disallow: /wp-login.php

Disallow: /wp-register.php

Disallow: /wp-admin

Disallow: /wp-content/cache

Disallow: /xmlrpc.php

После такого изменения, блокировка ресурсов была снята. Это видно по ссылкам со страниц проверки, в вебмастере Гугл.

Но не тут-то было. Потому что вскоре опять появились сообщения, Googlebot не смог пройти к 1-3 ресурсам. Тогда опять переписываю совсем свободный вход Гуглу.