Файл robots txt

файл robots.txt

Файл robots.txt устанавливается в корень сайта для поисковых роботов. чтобы они понимали какие ссылки нужно и не нужно индексировать. Процесс индексации статей сайта автоматический, роботы работают быстро и пребывают там секунды, за это время им нужно забрать информацию.   Если мы не поставим совсем robots.txt, то наш сайт работать будет, но только в индексе окажутся различные технические, черновые материалы: страницы автора,  поиска, теги. На веб. курсах «твой старт» нам дали готовый robots. txt, нужно создать «текстовый документ», скопировать в него файл и сохранить на компьютере.

Правильный файл robots.txt

Долго у меня стоял, robots.txt состав которого нам рекомендовали на курсах.   Для начала работы над сайтом он хорош, и ничего другого можно не устанавливать.

В  дальнейшем   его дополнила.

Значения Disallow 

Опишу значения, которые теперь знаю.

  • Первая строчка предназначена для роботов Google, Googlboot.
  • Allow* —  приветствие — путь свободен.
  • Звездочка обозначает свободный доступ к материалам сайта.
  • Все значения Disallow – представляют собой запрещения.
  • Disallow:/ cgi-bin – запрещение индексации каталога сервера.
  • Disallow: /?s= не показывать результаты поиска.
  •  Хост пишем  только 1 раз, это основное зеркало сайта, указывается только для Яндекса.
  • Host:moylubimiblog.ru — без «http»,  далее записываем файлы sitemap.xml.
  • «Sitemap:» — является ссылкой на XML-карты блога.  Обычно таких файла два, поэтому прописывается  пути к обеим.
  • Звездочка * — означает последовательность символов в произвольном порядке.

Мои дополнительные запреты в файле robots,txt


  • Связанны с появлением дублей статей.

  • Потому что у меня в индексе Гугла появились страницы вложения.
  •  Хост пишем  только 1 раз, это основное зеркало сайта, указывается только для Яндекса.
  • Host:moylubimiblog.ru — без «http»,  далее записываем  sitemap.xml.

Место расположения файла robots.txt

Закачиваем его на хостинг, куда мы платим за наш домен и сайт, у меня это Sprimthost.ru. Заходим в панель управления хостинга > файловый менеджер, открывается новое окно, здесь и есть корень сайта. Далее находим папку public_html и выбираем нужный сайт.

загрузка на хостинге

Сюда загружаем наш   документ, для этого спускаемся в самый низ, под все списки, нажимаем  самую длинную кнопку  — «загрузить  в текущую директорию». Открывается новое окно, где и произойдет загрузка документа.

Проверка установки

в папке public_html

Затем нужно вернуться и проверить, как установился robots.txt. Возвращаемся  по тому же пути. Сейчас на нашем хостинге стало проще: открываем файловый менеджер, сразу выбираем нужный сайт, и оказываемся в папке public_html, где находятся все папки,  Нажмем дважды на значке  robots.txt, он откроется, здесь же вношу нужные изменения и затем «сохраняю».

Ошибки в  файле robots.txt

Правильное расстояние между пулами

Вначале ведения первого сайта у меня robots.txt  был с такой ошибкой, что не действовал совсем. Оказалось, что у меня 2 пула для роботов разъехались на большее расстояние, чем это полагается. Нужно чтобы это расстояние составляло 1 интервал, а у меня их было 2, это заметила только через полгода.

 Автор: Ксенья Юрьевна Бастрикова

Комментарии 6

  • Тоже несколько дней разбиралась с файлом «robots.txt», ещё не закончила, но у меня нет в роботе запрещения картинок, я даже не поняла этого пока.

  • я для сайта готовый файл брала, сама его составлять не умею, к сожалению.

  • Ксенья Юрьевна, все эти запреты индексирования пока что учитывает робот Яндекса. Но вот в Гугле ситуация другая. Запрещенные к индексированию в файле robots страницы Гугл все равно индексирует, хотя и отправляет их в «дополнительный индекс» — Supplemental Index (который, естественно, вебмастера окрестили «соплями гугла»)
    Вот на этом Вашем блоге в индексе Яндекса 87 статей, а в индексе Гугла — 633
    То есть, все, что свыше 87 — это и есть «дополнительный индекс».
    Успешное продвижение в Гугле с подобным грузом проблематично. У меня самого до недавнего времени был подобный robots и подобный груз «соплей». Сейчас в Яндексе проиндексировано 161, а в Гугле пока 210 статей. Их число снижается — лишние страницы постепенно выпадают из индекса Гугла.
    Дело в том, что закрыты от индексации все «дубли контента» не в файле robots, а метатегом robots
    Метатег добавляется в код сайта при помощи добавления в файл functions.php специальной функции, ответственной за его выведение.
    А как выглядит современный robots, можно посмотреть хотя бы у меня — добавив в адресной строке к адресу главной страницы /robots.txt
    Только изменять так файл роботс нужно лишь после добавления метатега robots в код!

  • Я в этом полный ноль, стоит у меня такой файл, надо проверить сравнить по Вашему…

  • слышал что например ноиндекс и нофоллов это не обязательная команда, то есть ПС еще подумают индексировать или нет то что в этих тэгах заключено.

    насколько обязательны к исполнению поисковиками команды из роботса? Вот прямо стопроцентно, железно не будут индексировать то что запрещено в роботсе??

  • Спасибо, Ксения Юрьевна, решила заняться изучением своего роботса, а то я в этом мало что понимаю…

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *