Как удалить дубли страниц

Пишу здесь как удалить дубли страниц из индексов Яндекса и Гугла, потому что сама этому научилась. Чтобы избежать всяких казусов в ведении сайта нужно внимательно сделать настройки Word Press. В дальнейшем будет  меньше всяких исправлений. Останется больше времени для освоения интересного материала,  вместо того, чтобы с ошибками бороться. О вреде дублированного контента в  Интернете много материалов. Чтобы удалить дубли, вначале их нужно найти.

как удалить дубли страниц

Как найти дубли страниц  

оптимизация HTML

Многие дубли уже проиндексированы, часть дублированного контента мы можем найти в инструментах для веб. мастеров Google . Для этого нужно слева, в панеле инструментов перейти по ссылке: «вид в поиске». В выпадающем меню нажать ссылку: «оптимизация HTML». Откроется новое окно, где увидим  ссылки с ошибками. У меня раньше были ссылки на ошибки: «повторяющиеся метаописания» и «повторяющиеся заголовки». Очень часто это одни и те же статьи, но иногда есть  небольшая разница.  Нажимая ссылки, увидим два одинаковых метаописания, в двух дублированных текстах или очень похожие заголовки. Названия отличаются лишь тем, что в конце второго есть приписка: «comment page -1», о происхождении которого написано здесь.

Официально в HTML заголовки дублей можно прописать тег: “rel=cannonical” – как рекомендуется в инструментах для веб. мастеров Яндекса и Гугла. Нужно отметить, что написано совсем не понятно, как это сделать конкретно. По ссылкам, указанным в повторяющихся метаописаниях и заголовках, пытаюсь перейти на сайт по обеим вариантам ссылок. В обоих случаях статьи сайта открываются очень хорошо. Сайт с припиской в браузере: / сomment- page -1/ открывается вначале, как есть. Этот заголовок вижу в течение 1-2 секунд, затем его быстро перебрасывает на главный заголовок, он же канонический. Срабатывает редирект , однако дубль мне не нужен, удаляю его.

повторяющиеся заголовки

2. Второй способ нахождения дублей возможен если у нас в браузере Google Chrome установлено расширение RDS, то мы можем по ссылкам о количестве статей выдаче Яндекса и Гула перейти сразу в серп выдачи статей своих сайтов и посмотреть здесь положение наших дел. В Яндексе мы не сможем удалить дубли, если они не являются ошибкой 404. Но в том случае, если они запрещены в файле robots.txt, то их удаление станет возможным. В Гугле просмотрим все страницы выдачи, дубли узнаем визуально, чаще они находится в конце всего списка.

3. Дубли можно найти, если набрать в браузере полный адрес своего сайта. Это дополнительный индекс Гугла. Здесь мы встретим огромное количество всякого мусора, который найден роботами при переходе по внутренним ссылкам. Весь этот материал индексирован и имеет отношение к нашему сайту. Вначале я этот материал из индекса не удаляла, и за год чего тут только нет?!  Даже записи из контакта и номер моего телефона, в « открытом космосе». Теперь  все это удаляю, а мусора не уменьшается.

4. Удаляю ссылки примеров из параметров адресов сайта.

5. Изредка встречаются дубли в ошибках кода. Нажмем на 3 полоски, вверху браузера хром, в открывшемся контекстном меню перейдем в «дополнительные инструменты», затем в «инструменты разработчика» или в «консоль». Некоторые ошибки копирую и удаляю в инструментах для веб. мастеров. Сейчас в коде моего любимого блога ошибок нет, а на «нашей даче» их указано 12. Полагаю, что это ошибочные адреса, они выделены красным цветом. Буду их удалять, для этого рядом открываю еще одно окно, чтобы были открыты инструменты для веб мастеров Гугла.

6. Наличие дублей косвенно контролирую по данным RDS бара, где указано количество ссылок основного и дополнительного индекса Гугла. В дальнейшем Гугл совсем скрыл свой дополнительный индекс и доступа к нему нет, однако программа Xenus все ссылки находит. Можем в ней копировать дубли из дополнительного индекса и удалять через Гугл. Это будут адреса категорий, страниц, меток, архивов, медиафайлов, много всего.

Техника удаления 

Технически удаление дублей становиться не трудным, из-за многократных повторений одних и тех же действий. Работа рутинная, однако без нее не обойтись.

В сервисе веб. мастер Гугл находим опцию «индекс Google» и «удалить URL адреса».   В новом окне будет предложено: «создать запрос на удаление», после  чего, в появившуюся активную строку, вставляем скопированный URL  дубля и нажмем « продолжить».

адреса

Откроется окно для удаления страницы из результатов поиска, нажмем ссылку — «Отправить запрос». Чаще всего запрос на удаление дубля принимается. Удаление дублей, по своему механизму, похоже, на удаление ошибок 404.

создать новый запрос

 Об удаление дублей в инструментах веб  мастеров Яндекса, есть в этой статье.

адрес не проиндексирован в Яндексе

Часто при удалении встречается вариант, что адрес не проиндексирован.

Комментарии 14

  • Здорово написано, у меня тоже хватает таких дублей. Выделю на это время, буду удалять по Вашей статье. На сайтах тоже должен быть порядок, примерно, как в наших квартирах. Следует следить за чистотой сайта. У Вас очень интересные статьи, пригодятся многим! Твитт отправила.

  • Тоже поразбиралась, проверила у себя. Мне показали даже дубли приветствия, я всегда начинала одинаково статью и во то здравствуйте…. мне показывают как повторение. Перестала приветствовать.

  • Нужно заняться этим. Многому нужно учиться, чтобы добиться успеха. Но это в любом деле.

  • Как всегда, Ксения Юрьевна, все, подробно и понятно для новичков. Действительно, на сайте приветствуется порядок — это любят поисковики

  • Работаю над такой же проблемой. Сегодня изменила файл робот. тхт и отправила его на сайт буду ждать измениться что-нибудь или нет. Подсмотрела файл робот. тхт у последних учеников шлолы Старт. ар он отличается от тех что давали нам.

  • У меня на сайте тоже была такая проблема (надеюсь, что была и уже не осталось). Я себе заказала удаление дублей у мастера, он всё сделал, но в Гугле, например, в индексе страницы еще есть.

  • Как же все это трудно! Постоянно что-то появляется, чему быть не надо и тормозит продвижение сайта :(

  • Поэтому я на все это дело плюнул и отказался от Word Press. Теперь у меня совсем другой сайт.

  • Спасибо за статью. Гигантская работа. Никогда не интересовался, что там у меня с дублями. Теперь буду знать.

  • Движок Web Page Maker, это конструктор, который из текста, картинок, флешек, видео и аудио файлов, собирает html страницы, программа простая, но все эти части делаются в других программах. В общем, красота требует много времени. Но страницы легко индексируются, так как нет никаких ненужных файлов, чисто страницы.

  • Просто WP это программа и чтобы не попали дубли, нужно очень хорошо разбираться в её функциях, т.к. даже комментарии дают дубли. А в моем движке их быть не может, так как программа остается у меня на компьютере, а в интернет выкладываются только html страницы.

  • Будем надеяться, что они сами повыпадают, а то у меня не хватит жизни их поудалять.

  • Дубли страниц желательно удалять или закрывать от индексации поисковых роботов. А то можно попасть под бан Гугла, как было у меня. Сайт мгновенно упал по всем позициям. Прошло уже несколько месяцев, а выйти на прежний уровень, мне пока не удалось. Дубли уходят очень очень медленно

  • Очень подробно записано думаю я разберусь. Главное появилась ясность в голове.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *