Удаление страниц из индекса поисковых систем. Как удалить страницу из индекса

Faq 15.05.2019

Faq

По поводу выгрузки проиндексированных страниц, Яндекс наконец сделал то что и нужно было.

И вот теперь мы получили очень хороший инструмент с помощью которого можно получить очень интересную информацию.

Я сегодня расскажу об этой информации и вы сможете применить это для продвижения ваших сайтов.

Переходим в Яндекс.Вебмастер, в раздел «Индексирование»

И вот перед вам такая картинка(нажимайте, чтобы увеличить):

Эти данные исключённых страниц дают нам очень много информации.

Ну начнём с Редиректа:

Обычно редирект не таит в себе каких то проблем. Это техническая составляющая работы сайта.

Это обычный дубль страницы. Я бы не сказал, что это не настолько критично. Просто Яндекс из двух страниц посчитал более релевантной именно вторую страницу.

И Яндекс даже написал свой комментарий: Страница дублирует уже представленную в поиске страницу http://сайт/?p=390. Укажите роботу предпочтительный адрес с помощью 301 редиректа или атрибута rel=»canonical».

Это можно использовать следующим образом: Иногда вылетают страницы сайта которые вы продвигаете и наоборот встают в индекс их дубли. В данном случае нужно просто прописать канонический урл на обоих этих страницах на ту которую вы продвигаете.

После этого обе эти страницы добавляете в «Переобход робота».

Это та страница в мета-тегах которой прописан канонический урл на нужную страницу.

Тут как раз всё прекрасно и это обычный процесс работы сайта.

Тут также Яндекс пишет подсказку: Страница проиндексирована по каноническому адресу http://сайт/?p=1705, который был указан в атрибуте rel=»canonical» в исходном коде. Исправьте или удалите атрибут canonical, если он указан некорректно. Робот отследит изменения автоматически.

Обычно это происходит когда вы удалили какие то страницы, а редирект не поставили. Или 404 ошибку не поставили.

Какого то вреда для продвижения сайта это не даёт.

Ну и подходит к самому интересному. Недостаточно качественная страница.

Т.е. страницы нашего сайта вылетели из индекса Яндекса потом что они недостаточно качественные.

Безусловно это важнейший сигнал вашему сайту, что у вас глобальные проблемы с этими страницами.

Но не всё так однозначно как кажется.

Зачастую это страницы пагинации, поиска или другого мусора. И эти страницы правильно исключены из индекса.

Но иногда бывает, что из индекса исключают карточки товаров Интернет-магазина. Причём исключают тысячами. И это безусловного говорит о том, что с вашими страницами карточек товаров какие то серьёзные проблемы.

Я за неделю просмотрел многие Интернет-магазины и почти у всех есть подобное. Причём вылет страниц наблюдается по десятку тысяч.

Тут могут быть такие проблемы, что мы имеем несколько одинаковых страниц где товар просто разного цвета. И Яндекс считает, что это одна страница.

В данном случае тут или делать одну страницу с выбором цвета на одной странице или же дорабатывать другие страницы.

Но конечно стоит сказать, что это ГЛОБАЛЬНАЯ помощь для всех владельцев Интернет-магазинов. Вам дали ясно понять какие страницы у вас улетели и почему.

Тут нужно работать над качеством этих страниц. Может эти страницы дублируют другие, а может и нет.

Иногда на таких страницах элементарно отсутствует текст. А на некоторых отсутствует цена и Яндекс удаляет из индекса такие страницы.

А ещё я заметил, что если на странице карточки товара стоит статус «Товар отсутствует на складе», то такая страница тоже удаляется из индекса Яндекса.

В общем то работайте.

О других интересных фишках я расскажу в понедельник на своём семинаре —

Да и ещё. Многие знают такую траблу с Яндекс.Советником:

Т.е. вы заплатили за клик с Директа, а Яндекс.Советник уводит вашего оплаченного клиента на Яндекс.Маркет.

Это на самом деле вопиющий случай.

Как я понял Яндекс ничего менять не будет.

Ну хорошо, тогда поменяю я сам.

Этот Яндекс.Советник косается в первую очередь Интернет магазинов. А Интернет магазины стоят в первую очередь на движках: Битрикс, Джумла, Вебасист.

Так вот для этих движков я пишу блокиратор советника. Т.е. при установке на вашем движке этого плагина, на вашем сайте не будет работать Яндекс.Советник.

Всем кто придёт на мои семинар я позже скину эти плагины бесплатно.

Я выбрал наиболее популярные движки на которых стоят ИМ. Для сайтов услуг это не нужно. А вот для ИМ, самое то.

Если есть вопросы, то задавайте вопросы.

Ссылка "Сохраненная копия" на странице результатов поиска иногда позволяет узнать очень интересные вещи, которые были оперативно удалены с какого-либо сайта. Так бывает с новостями или какими-то спорными публикациями. Это особенность работы поисковых систем здорово радует посетителей сайта. Но теперь, выступая в роли администраторов, мы наоборот, заинтересованы в том, чтобы ненужные страницы, которые мы уже удалили со своего сайта, как можно скорее были удалены из результатов поиска. Опять-таки, рано или поздно это произойдет. Для того чтобы это произошло рано, используется форма "Удалить URL " ( рис. 4.3 ):

увеличить изображение Рис. 4.3. Форма удаления URL

Конечно, эта форма не гарантирует моментального удаления результата, но ускоряет его.

Проверить сайт

А есть ли вообще наш сайт в базе поиска? Ответ на этот вопрос даст страница "Проверить сайт " ( рис. 4.4 ):

увеличить изображение Рис. 4.4. Проверка сайта

Открывается обычная страница поиска, в которой подставлен шаблон rhost="ru.narod.v-rn"|rhost="ru.narod.v-rn.*" ( рис. 4.5 ):

увеличить изображение Рис. 4.5. Результаты проверки сайта

Этот шаблон нам уже знаком из первой Лекции. Сейчас наш сайт, который был только что создан, не найден в поисковой базе. Проверим сайт Интернет Университета Информационных технологий с помощью этой же формы. В строке запроса будет шаблон rhost="ru.intuit"|rhost="ru.intuit.*" ( рис. 4.6 ):

увеличить изображение Рис. 4.6. Результат проверки сайта ИНТУИТа

Сайт также находится в Яндекс.Каталоге , поэтому на странице результатов отображается соответствующаярубрика . Спустя некоторое время еще раз введем значения сайта v-rn.narod.ru. Сайт был проиндексирован и теперь отображается в базе ( рис. 4.7 ):

увеличить изображение Рис. 4.7. Проверка сайта после индексации

Заметим, что в данном случае, в качестве описания сайта выводится содержимое тега title. Поэтому на многих сайтах заголовки очень длинные, зачастую содержащие описание сайта.

Мои сайты

Раздел "Мои сайты" содержит перечень ресурсов, которые могут управляться Вами. Это своего рода отправная точка мониторинга своих сайтов. Поначалу список пустой, поэтому мы вводим адрес сайта и нажимаем на кнопку"Добавить" ( рис. 4.8 ):

увеличить изображение Рис. 4.8. Добавление адреса в разделе "Мои сайты"

Спустя некоторое время, после того как сайт будет проиндексирован, отчет будет содержать информацию об этом ( рис. 4.9 ):

увеличить изображение Рис. 4.9. Проиндексированный сайт в разделе "Мои сайты"

Глядя на этот список, возникает вопрос - а могу ли я таким образом добавить совершенно чужой сайт? Специально для предотвращения таких случаев сделана система проверки прав на управления. Она включает в себя предложение загрузить определенную информацию на ваш сайт. Если получится это сделать, то Яндекс будет считать вас владельцем сайта. Другими словами, владелец сайта может изменять его содержимое, что и проверит Яндекс.

В нашем случае мы авторизованы от имени пользователя [email protected], который автоматически является владельцем сайта v-rn.narod.ru. Поэтому никаких предложения проверить права на управления не возникает - мы автоматически получаем статус подтвержденных прав.

Под ошибками сайта понимаются случаи, когда поисковый бот не мог получить доступ к определенным страницам. Это могут быть и банальные несуществующие страницы (ошибки 404) или же ссылки на защищенные части сайта, которые запрещены для индексирования (см. далее файл "robots.txt" ).

Поле "Загружено страниц" отображает общее число страниц сайта, которые успел обойти поисковый бот Яндекса.

увеличить изображение Рис. 4.10. Информация о v-rn.narod.ru

Гиперссылка "Структура сайта" ведет на структуру, которую, опять-таки, видит Яндекс. Здесь отображаются только те подразделы, которые содержат более 10 страниц и занимают более 1% от общего числа. Поэтому реальная структура - та, которую мы могли видеть на локальном компьютере или на FTP, будет отличаться от представленной.

Файлы Sitemap - отличное средство указать приоритет индексации страниц для сайтов, содержимое которых часто обновляется. Например, большинство новостных лент содержат подразделы, на которых часто публикуются новости. Другие подразделы - архив, информация о сайте (или компании), список рассылок - обновляются реже. Быстрая индексация наиболее обновляемых материалов позволит отображать в поисковой выдаче актуальные данные, а значит, будет способствовать привлечению на ресурс новых посетителей. Для создания файлов Sitemap используется разметка XML, конкретные спецификации которой представлены наофициальном сайте .

Раздел "Индекс" содержит очень интересную информацию и инструменты ( рис. 4.11 ):

увеличить изображение Рис. 4.11. Раздел "Индекс"

В конце августа 2007 года Яндекс перестал поддерживать такие возможности, как поиск страниц, содержащих ссылку на данную, поиск слов, содержащихся только в текстах ссылок на данную. Они были удобны для использования как владельцами сайтов, так и""роботами" - программами, написанными с целью изучить ранжирование Яндекса и попытаться им манипулировать" . Поскольку такое манипулирование ухудшало качество поиска, то соответствующие инструменты были выключены. Так вот, а раздел"Индекс" позволяет все же просмотреть, какие внешние страницы ссылаются на подраздел вашего сайта с помощью инструмента"Внешние ссылки" . Другими словами, в какой-то мере прежняя функциональность доступна в этом сервисе.

Раздел "Запросы" позволяет видеть, по каким поисковым словам сайт оказывается в результатах поиска ( рис. 4.12 ):

увеличить изображение Рис. 4.12. Раздел "Запросы"

В еще одном инструменте для веб-мастеров - Яндекс.Метрике, который мы рассмотрим позже, есть дублирующие этот раздел средства.

Раздел "Инструменты" содержит, как это следует из названия, инструменты для проверки файлаrobots.txt и изменения регистра имени сайта в результатах поиска ( рис. 4.13 ):

увеличить изображение Рис. 4.13. Раздел "Инструменты"

Как правило, в любом сайте есть разделы, которые не должны индексироваться поисковыми системами. Это административные папки, персональные данные пользователей, рабочие материалы. Для того чтобы сообщать всем поисковым системам и Яндексу, в частности, что какие-то разделы обходить не нужно, используется помещение обычного текстового файла "robots.txt" в корневую директорию сайта, причем название файла должно быть точно таким. Например, на настоящем сайте этот файл лежит здесь:http://www.intuit.ru/robots.txt Мы видим его содержимое:

Disallow: /cgi-bin/

Disallow: /w2k-bin/

Disallow: /admin/

Disallow: /w2admin/

Disallow: /user/

Disallow: /diploma/

Язык этого файла довольно простой - это не какое-то программирование или даже не HTML-код. В данном случае для всех поисковых систем - "User-Agent: *" запрещено индексирование директорий cgi-bin, w2k-bin, admin и т.д. со всем их содержимым. Создадим свой собственный файлrobots.txt для нашего сайта. Для примера, запретим индексирование определенной папки. Идем в Мастерскую, и нажимаем на ссылку"Создать папку" ( рис. 4.14 ):

увеличить изображение Рис. 4.14. Мастерская, ссылка "Создать папку"

Название папки может быть совершенно произвольным, но придерживаясь определенных традиций, назовем ее admin ( рис. 4.15 ):

увеличить изображение Рис. 4.15. Создание папки "admin"

увеличить изображение Рис. 4.16. Мастерская, гиперссылка "Создать html-файл"

Вводим произвольное название файла, скажем, main.html ( рис. 4.17 ):

увеличить изображение Рис. 4.17. Создание html-страницы

А затем переходим к редактированию созданной страницы. Напишем, что это страница, которая не должна быть доступна для поисковых систем ( рис. 4.18 ):

увеличить изображение Рис. 4.18. Редактирование html-страницы

Конечно, все шаги, которые мы сейчас проделали - всего лишь использование функционала Мастерской. Точно такой же результат мы бы получили, если бы создали папку, затем страницу в программе Dreamweaver, а потом загрузили бы их через ftp. Главное то, что теперь по адресу http://v-rn.narod.ru/admin/main.html мы видим созданную страницу ( рис. 4.19 ):

увеличить изображение Рис. 4.19. Страница, которая будет скрыта от поисковых систем

Важное замечание - это страница совершенно доступна для всех пользователей. Она останется такой же и далее. Если же мы хотим, чтобы к ней получали доступ авторизованные пользователи, то эту задачу придется решать средствами веб-программирования. Но к запрету к индексации поисковыми системами это отношения не имеет.

Теперь запускаем блокнот, сохраняем файл "robots.txt" и вводим в него правило ( рис. 4.20 ):

Рис. 4.20. Правило для сайта v-rn.narod.ru

Осталось забросить этот файл в корневую папку сайта. Идем в Мастерскую, нажимаем на ссылку "загрузить файлы" ( рис. 4.21 ):

увеличить изображение Рис. 4.21. Мастерская, гиперссылка "Загрузить файлы"

увеличить изображение

Все готово. Возвращаемся к инструментам Яндекс.Вебмастер, переходим по ссылке "Анализ файла robots.txt" (см.рис. 4.13 ). При этом происходит загрузка содержимого файлаrobots.txt , который уже есть на нашем сайте. Оно выводится в верхнем поле страницы. Мы вводим адрес, который хотим проверить -v-rn.narod.ru/admin/main.html ( рис. 4.23 ):

увеличить изображение Рис. 4.23. Анализ файла robots.txt

Как мы и хотели, эта страницу не будет индексироваться - результат "запрещен правилом /admin/" ( рис. 4.24 ):

Рис. 4.24. Результат анализа файла robots.txt

Для анализа файла robots.txt всех сайтов - не только своего собственного, используетсяпубличная версия инструмента . Она работает даже для неавторизованных пользователей.

Инструмент "Регистр имени сайта" несомненно, оценят пользователи,которые любят писать адрес электронной почты как [email protected]. Он позволяет изменить адрес сайта в поисковой выдаче ( рис. 4.25 ):

увеличить изображение Рис. 4.25. Изменение регистра имени сайта

Разумеется, после изменения сайт по-прежнему будет доступен и по обычной ссылке типа v-rn.narod.ru.

Многие вебмастера рано или поздно сталкиваются с необходимостью удалить из поисковой системы страницы сайта, которые попали туда по ошибке, перестали быть актуальными, являются дублями или содержат конфиденциальную информацию клиентов (причины могут быть разные). Яркий пример тому уже нашумевшая ситуация с Мегафоном, смс-ки пользователей которого проиндексировал Яндекс, ситуация с интернет-магазинами, когда в поиске можно было найти личную информацию клиентов и подробности их заказов, ситуация с банками и транспортными компаниями и так далее…

Не будем касаться в этой статье причин описанных выше казусов, а рассмотрим, как удалить из Яндекса или Google ненужные страницы. Подразумевается, что они пренадлежат вашему сайту, в противном случае необходимо связываться с владельцем нужного ресурса с соответствующей просьбой.

5 способов удаления страниц из поисковых результатов

1. 404 ошибка

Один из простых способов удаления страницы из поиска это удаление её со своего сайта, с условием, что в дальнейшем, при обращении по старому адресу, сервер выдавал 404-ую ошибку, означающую, что страницы не существует.

HTTP/1.1 404 Not Found

В данном случае придётся подождать, пока робот ещё раз не зайдёт на страницу. Иногда это занимает значительное время, в зависимости от того, как она попала в индекс.

Если страница при удалении её из поиска должна существовать на сайте, то данный способ не подходит, лучше использовать другие, представленные ниже.

2. Файл robots.txt

Очень популярный метод закрыть от индексации целые разделы или отдельные страницы это использование корневого файла robots.txt. Существует множество мануалов, как правильно настроить этот файл. Здесь приведём лишь несколько примеров.

Закрыть раздел администраторской панели от попадания её в индекс поисковиков:

User-Agent: *
Disallow: /admin/

Закрыть определенную страницу от индексации:

User-Agent: *
Disallow: /my_emails.html # закрытие страницы my_emails.html
Disallow: /search.php?q=* # закрытие страниц поиска

В случае с robots.txt тоже придётся ждать переиндексации, пока робот не выкинет из индекса страницу или целый раздел. При этом, некоторые страницы могут остаться в индексе, если причиной их попадания туда было несколько внешних ссылок.

Данный метод неудобно использовать в случае необходимости удаления разных страниц из разных разделов, если невозможно составить общий шаблон для директивы Disallow в robots.txt.

3. Мета-тег robots

Это альтернатива предыдущего метода, только правило задаётся непосредственно в HTML -коде страницы, между тегами .

Удобство мета-тега в том, что его можно добавить на все нужные страницы (с помощью системы управления), попадание которых нежелательно в индекс поисковика, оставляя файл robots.txt при этом простым и понятным. Недостаток данного метода лишь в том, что его сложно внедрить для динамического сайта, использующего один шаблон header.tpl, если отсутствуют специальные навыки.

4. Заголовки X-Robots-Tag

Данный метод используют зарубежные поисковые системы, в том числе Google, как альтернативу предыдущему методу. У Яндекса пока нет официальной информации о поддержке этого http-заголовка, но возможно, в ближайшее время будет.

Суть его использования очень похожа на мета-тег robots, за исключением того, что запись должна находиться в http-заголовках, которые не видны в коде страницы.

X-Robots-Tag: noindex, nofollow

В некоторых, часто неэтичных, случаях его использование очень удобно (например, при обмене ссылками и скрытии страницы линкопомойки).

5. Ручное удаление из панели для вебмастеров

Наконец последний, и самый быстрый способ удаления страниц из индекса – это их ручное удаление.

Единственное условие для ручного удаления страниц – они должны быть закрыты от робота предыдущими методами (в robots.txt, мета-теге или 404-ой ошибкой). Замечено, что Google обрабатывает запросы на удаление в течение нескольких часов, в Яндексе придётся подождать следующего апдейта. Используйте этот метод, если вам надо срочно удалить небольшое количество страниц из поиска.

Улучшение юзабилити 404-ых страниц уменьшает показатель отказов. В статье приведены несколько советов, которые помогут сделать 404-ую страницу более эффективной.

Всё о файле robots.txt
Для тех, кто ещё не сталкивался с настройкой файла robots.txt, данный ресурс будет полезной отправной точкой. Здесь собрано много примеров и другой полезной информации.

Яндекс: Использование robots.txt
Официальные примеры использования файла robots.txt от Яндекса. Также там представлены учитываемые Яндексом директивы и другие советы.

Пример использования HTTP -заголовка X-Robots-Tag в Apache.

Мы выпустили новую книгу «Контент-маркетинг в социальных сетях: Как засесть в голову подписчиков и влюбить их в свой бренд».

Любому вебмастеру рано или поздно может понадобится удалить сайт из поисковика , или удалить одну страницу . Несмотря на то что дело может показаться простым, возникают некоторые сложности. К примеру, при нажатии на кнопку «удалить» в панели вебмастера, Яндекс может ответить «Нет оснований для удаления». Но только вебмастеру подвластна судьба страниц.

Давайте разбираться.

Как удалить из поиска ненужные страницы?

Для начала разберем как сайт попадает в поиск.

Допустим, вы создали свой сайт, заполнили его контентом и сделали некоторую оптимизацию. Вы ждете, когда придет робот поисковика и просканирует ваш сайт. Сканирование сайта подразумевает, что робот посмотрит ваш сайт и запомнит про что он, грубо говоря. После того как сайт просканирован, он попадает в индекс. Иными словами, просканированный сайт попадает в выдачу поисковиков.

Для управления индексацей страниц вашего сайта, вам необходимо соблюсти обязательные условия:

Вы зарегистрировали сайт в Яндекс.Вебмастер и имеете доступ к панели вебмастера;
На сайте есть файл robot.txt.

Заходим в Яндекс.Вебмастер. Для этого нужно ввести в поиске Яндекс Вебмастер или перейти по прямой ссылке .

Выбираем вкладку «Мои сайты». Если у вас он не один, отобразиться список ваших сайтов, тут выбираем сайт, который хотите удалить из поиска

В слайдбаре, который находится справа, находим ссылку «Удалить URL».

Вводим в форме ссылку на страницу и нажимаем «удалить». Яндекс думает, что вы знаете точный адрес страницы, которую хотите удалить. Предполагается, что произойдет удаление введенной вами страницы и все. Но это срабатывает далеко не всегда. Чаще всего это происходит из-за того, что url введенный в форме не соответствует адресу страницы, которую вы хотите удалить из поиска Яндекса .

Как узнать точный URL страницы?

Для того чтобы узнать адреса всех проиндексированных страниц сайта в Яндексе есть специальная команда «host». В строке поиска нужно написать «host:site.ru». Site – здесь пишем адрес вашего сайта. После выполнения данной команды выводится список всех проиндексированных страниц введенного сайта.

А что если страниц в выдаче больше, чем есть на сайте?

Если в выдаче страниц больше, чем у вас на сайте, значит, некоторые страницы имеют дубли – это одна из самых распространенных причин. Для удаления таких страниц есть два решения:

Закрыть в robots.txt и Яндекс со временем сам удалит ненужные страницы из поиска . Но это может затянуться надолго.
Удалить дубли вручную.

Для того чтобы удалить страницу из поиска Яндекса вручную:

Заходим на страницу (дубль).
Копируем ее адрес.
Заходим в Яндекс Вебмастер.
Нажимаем на «Мои сайты».
Выбираем нужный сайт.

Нажимаем в слайдбаре «Удалить URL » и вставляем в форму адрес дубля страницы.

Возможно, вы увидите такое сообщение:

Как быть в таком случае? Данное сообщение сигнализирует о том, что страница не закрыта от индексации в robots.txt или нет параметра noindex. Закрываем ее и пробуем еще раз. Если все сделано правильно вы увидите такое сообщение.

«URL добавлен в очередь на удаление». Сколько времени займет удаление трудно сказать, зависеть это может как от количества страниц на сайте, так и от самого Яндекса.

Рассказать о статье:

Получите профессиональный взгляд со стороны на свой проект

Специалисты студии SEMANTICA проведут комплексный анализ сайта по следующему плану:

– Технический аудит.
– Оптимизация.
– Коммерческие факторы.
– Внешние факторы.

Мы не просто говорим, в чем проблемы. Мы помогаем их решить