Файл robots txt

Файл robots.txt устанавливается в корень сайта для поисковых роботов. чтобы они понимали какие ссылки нужно и не нужно индексировать. Процесс индексации статей сайта автоматический, роботы работают быстро и пребывают там секунды, за это время им нужно забрать информацию.   Если мы не поставим совсем robots.txt, то наш сайт работать будет, но только в индексе окажутся различные технические, черновые материалы: страницы автора,  поиска, теги. На веб. курсах «твой старт» нам дали готовый robots. txt, нужно создать «текстовый документ», скопировать в него файл и сохранить на компьютере.файл robots.txt

Правильный файл robots.txt

Долго у меня стоял, robots.txt состав которого нам рекомендовали на курсах.   Для начала работы над сайтом он хорош, и ничего другого можно не устанавливать.

В  дальнейшем   его дополнила.

Значения Disallow 

Опишу значения, которые теперь знаю.

  • Первая строчка предназначена для роботов Google, Googlboot.
  • Allow* —  приветствие — путь свободен.
  • Звездочка обозначает свободный доступ к материалам сайта.
  • Все значения Disallow – представляют собой запрещения.
  • Disallow:/ cgi-bin – запрещение индексации каталога сервера.
  • Disallow: /?s= не показывать результаты поиска.
  •  Хост пишем  только 1 раз, это основное зеркало сайта, указывается только для Яндекса.
  • Host:moylubimiblog.ru — без «http»,  далее записываем файлы sitemap.xml.
  • «Sitemap:» — является ссылкой на XML-карты блога.  Обычно таких файла два, поэтому прописывается  пути к обеим.
  • Звездочка * — означает последовательность символов в произвольном порядке.

Мои дополнительные запреты 


  • Связанны с появлением дублей статей.

  • Потому что у меня в индексе Гугла появились страницы вложения.
  •  Хост пишем  только 1 раз, это основное зеркало сайта, указывается только для Яндекса.
  • Host:moylubimiblog.ru — без «http»,  далее записываем  sitemap.xml.

Прошло время изменения были сделаны повторно, в зависимости от того, какие дубли попадали в индексы. После запретов в поисковой системе Гугл появились заблокированные ресурсы, в связи с чем для Гугла файл robots.txt пришлось почти совсем открыть и установить запретительный мета -тег.

Для Яндекса пришлось настраивать, по другому, и теперь файл выглядит у меня следующим образом.

Место расположения 

Закачиваем его на хостинг, куда мы платим за наш домен и сайт, у меня это Sprimthost.ru. Заходим в панель управления хостинга > файловый менеджер, открывается новое окно, здесь и есть корень сайта. Далее находим папку public_html и выбираем нужный сайт.

загрузка на хостинге

Сюда загружаем наш   документ, для этого спускаемся в самый низ, под все списки, нажимаем  самую длинную кнопку  — «загрузить  в текущую директорию». Открывается новое окно, где и произойдет загрузка документа.

Проверка установки

находится в папке public_html

Затем нужно вернуться и проверить, как установился robots.txt. Возвращаемся  по тому же пути. Сейчас на нашем хостинге стало проще: открываем файловый менеджер, сразу выбираем нужный сайт, и оказываемся в папке public_html, где находятся все папки,  Нажмем дважды на значке  robots.txt, он откроется, здесь же вношу нужные изменения и затем «сохраняю».

Ошибки 

Правильное расстояние между пулами

Вначале ведения первого сайта у меня robots.txt  был с такой ошибкой, что не действовал совсем. Оказалось, что у меня 2 пула для роботов разъехались на большее расстояние, чем это полагается. Нужно чтобы это расстояние составляло 1 интервал, а у меня их было 2, это заметила только через полгода.

 Автор: Ксенья Юрьевна Бастрикова

Комментарии 8

  • Тоже несколько дней разбиралась с файлом «robots.txt», ещё не закончила, но у меня нет в роботе запрещения картинок, я даже не поняла этого пока.

  • я для сайта готовый файл брала, сама его составлять не умею, к сожалению.

  • Ксенья Юрьевна, все эти запреты индексирования пока что учитывает робот Яндекса. Но вот в Гугле ситуация другая. Запрещенные к индексированию в файле robots страницы Гугл все равно индексирует, хотя и отправляет их в «дополнительный индекс» — Supplemental Index (который, естественно, вебмастера окрестили «соплями гугла»)
    Вот на этом Вашем блоге в индексе Яндекса 87 статей, а в индексе Гугла — 633
    То есть, все, что свыше 87 — это и есть «дополнительный индекс».
    Успешное продвижение в Гугле с подобным грузом проблематично. У меня самого до недавнего времени был подобный robots и подобный груз «соплей». Сейчас в Яндексе проиндексировано 161, а в Гугле пока 210 статей. Их число снижается — лишние страницы постепенно выпадают из индекса Гугла.
    Дело в том, что закрыты от индексации все «дубли контента» не в файле robots, а метатегом robots
    Метатег добавляется в код сайта при помощи добавления в файл functions.php специальной функции, ответственной за его выведение.
    А как выглядит современный robots, можно посмотреть хотя бы у меня — добавив в адресной строке к адресу главной страницы /robots.txt
    Только изменять так файл роботс нужно лишь после добавления метатега robots в код!

  • Я в этом полный ноль, стоит у меня такой файл, надо проверить сравнить по Вашему…

  • слышал что например ноиндекс и нофоллов это не обязательная команда, то есть ПС еще подумают индексировать или нет то что в этих тэгах заключено.

    насколько обязательны к исполнению поисковиками команды из роботса? Вот прямо стопроцентно, железно не будут индексировать то что запрещено в роботсе??

  • Спасибо, Ксения Юрьевна, решила заняться изучением своего роботса, а то я в этом мало что понимаю…

  • Я поначалу тоже изголялся с этим роботс-файлом. Потом установил себе плагин Clearfy… Он, кроме многих прочих полезностей, динамически сам создаёт robots.txt.
    Он получается очень компактный. Можно посмотреть obg.kz/robots.txt
    И вот, что разработчики плагина пишут: «Мы перечитали около 30 различных статей, инструкции от Яндекса и Google, чтобы создать идеальный robots.txt». Думаю, они всё правильно сделали…

  • Александр, я только вчера купила плагин Clearfy Pro. Установила его на сайт про дачу, но их robots.txt пока не включила. Оставила свой, исходя из того что мне Яндекс проиндексировал дублей не мало.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *