28.10.2014      735      0
 

Файл robots.txt настройки директивы как редактировать


Файл robots.txt устанавливается в корень сайта для поисковых роботов. Это нужно чтобы они понимали какие ссылки можно и нельзя индексировать. Правила для роботов называются директивами. Процесс индексации статей сайта автоматический. Роботы работают быстро и пребывают на сайте секунды. За это время им нужно забрать всю информацию.   Если мы не установим совсем файл, то наш сайт работать будет, но только в индексе окажутся различные технические, черновые материалы. Например, страницы автора,  поиска, теги, архивы, номера страниц. Потому появится повторение одних и тех же материалов, они являются дубликатами наших статей или не каноническими документами. файл robots.txt

Файл robots.txt — стандартный

Пять лет назад, на веб. курсах «твой старт» нам дали готовый файл robots. txt. Нужно создать «текстовый документ», скопировать в него содержание и сохранить на компьютере. Долго у меня стоял, файл robots.txt, состав которого нам рекомендовали на курсах.   Для начала работы над сайтом он хорош, и ничего другого можно не устанавливать.

Однако, с течением времени произошли изменения, особенно в поисковой системе Гугл. В настоящее время 2018 году, robots.txt выглядит на сайте так, как показано у меня в конце данной статьи. Эту статью постепенно тоже редактирую, также как изменяется файл, но не убираю прошлые материалы. Мне кажется, что в процессе изменений, файл robot. txt понятнее начинающим блогерам.

Значения Disallow 

Опишу значения, которые теперь знаю.

  • Первая строчка предназначена для роботов Google, Googlboot.
  • Allow* —  приветствие — путь свободен.
  • Звездочка обозначает свободный доступ к материалам сайта.
  • Все значения Disallow – представляют собой запрещения.
  • Disallow:/ cgi-bin – запрещение индексации каталога сервера.
  • Disallow: /?s= не показывать результаты поиска.
  •  Хост пишем  только 1 раз, это основное зеркало сайта, указывается только для Яндекса.
  • Host:site.ru — без «http»,  далее записываем файлы sitemap.xml.
  • «Sitemap:» — является ссылкой на XML-карты блога.  Раньше было таких файла 2 простой и сжатый.
  • Звездочка * — означает последовательность символов в произвольном порядке.

 Файл robots.txt -место расположения

Закачиваем его на хостинг, куда мы платим за наш домен и сайт, например, у меня это Sprimthost.ru. Заходим в панель управления хостинга, переходим в файловый менеджер. Открывается новое окно, здесь и есть корень сайта. Далее находим папку public_html и выбираем нужный сайт. Так было раньше. Сейчас переходим в файловый менеджер, выбираем сайт и он сразу открывается в папке public html. Нажмем дважды на значке, он откроется, здесь же вношу нужные изменения и затем «сохраняю».

загрузка на хостинг

Сюда загружаем наш   документ, для этого спускаемся в самый низ, под все списки, нажимаем  самую длинную кнопку  — «загрузить  в текущую директорию». Открывается новое окно, где и произойдет загрузка документа. Далее нужно произвести правильность установки файла. Затем нужно вернуться и проверить, как установился файл robots.txt. Возвращаемся  по тому же пути.

Файл robots.txt — ошибки 

Правильное расстояние между пулами

Вначале ведения первого сайта у меня файл robots.txt  был с такой ошибкой, что не действовал совсем. Оказалось, что у меня 2 пула для роботов разъехались на большее расстояние, чем это полагается. Нужно чтобы это расстояние составляло 1 интервал, а у меня их было 2, это заметила только через полгода.

 Редактирование

Однако в дальнейшем, на протяжении всего периода ведения блога, файл robots.txt приходиться постоянно редактировать для поисковой системы Яндекс.

Сервис «Яндекс вебмастер» сейчас стал открытым, для блогеров и мы можем редактировать проиндексированные страницы. Просматривать нужно все отделы, в тех случаях, где замечаем неправильную индексацию.

Запретим эти файлы правилами disallow. Например, заметили, что в индексе появились лишние страницы сайта. Например, это могут быть категорий, страницы комментариев, или страницы с медиафайлами.

Запретим их, как показано ниже. Правила добавлены потому, что у меня в индексе Яндекса появились страницы вложения.

  • После запретов в поисковой системе Гугл появились заблокированные ресурсы.  В связи с этим для Гугла файл robots.txt пришлось совсем открыть, но установить запретительный мета -тег robots, который влияет на обе поисковые системы: Яндекс и Гугл.
  • Однако для Яндекса настраиваются более конкретные запреты в файле robots.txt. Считаю, что это лучше, чем это происходит с индексацией Google.  Что происходит в Гугле, блогеру почти ничего неизвестно, в настоящее время — в 2017 году.

На сегодня — 06.11.2017 мой файл robots.txt для дома и дачи выглядит следующим образом. До настоящего времени его не меняю — февраль 2019 год.

  • Файл sitemap_index.xml, который находится внизу строчки, теперь не вносится в готовом виде на хостинг. Он обновляется на лету, в плагине Yoast Seo.
  • В дальнейшем файл будет изменяться, в соответствии с индексированием в Яндексе, некоторые правила могут быть добавлены или удалены.
  • Получается, что файл robots.txt имеет общие директивы на всех сайтах, но вместе с тем есть индивидуальные запреты и разрешения для каждого блога.


Об авторе: Ксенья Юрьевна Бастрикова

Ваш комментарий

Ваш e-mail не будет опубликован.

Яндекс.Метрика