Индексирование в Google. Использовать методы запрета индексации от поисковых алгоритмов

Вайбер на компьютер 20.02.2019
Вайбер на компьютер

Недавно поделился со мной наблюдением, что у многих сайтов, которые приходят к нам на аудит, часто встречаются одни и те же ошибки. Причем эти ошибки не всегда можно назвать тривиальными – их допускают даже продвинутые веб-мастера. Так возникла идея написать серию статей с инструкциями по отслеживанию и исправлению подобных ошибок. Первый в очереди – гайд по настройке индексации сайта. Передаю слово автору.

Для хорошей индексации сайта и лучшего ранжирования страниц нужно, чтобы поисковик обходил ключевые продвигаемые страницы сайта, а на самих страницах мог точно выделить основной контент, не запутавшись в обилие служебной и вспомогательной информации.
У сайтов, приходящих к нам на анализ, встречаются ошибки двух типов:

1. При продвижении сайта их владельцы не задумываются о том, что видит и добавляет в индекс поисковый бот. В этом случае может возникнуть ситуация, когда в индексе больше мусорных страниц, чем продвигаемых, а сами страницы перегружены.

2. Наоборот, владельцы чересчур рьяно взялись за чистку сайта. Вместе с ненужной информацией могут прятаться и важные для продвижения и оценки страниц данные.

Сегодня мы хотим рассмотреть, что же действительно стоит прятать от поисковых роботов и как это лучше делать. Начнём с контента страниц.

Контент

Проблемы, связанные с закрытием контента на сайте:

Страница оценивается поисковыми роботами комплексно, а не только по текстовым показателям. Увлекаясь закрытием различных блоков, часто удаляется и важная для оценки полезности и ранжирования информация.

Приведём пример наиболее частых ошибок:
– прячется шапка сайта. В ней обычно размещается контактная информация, ссылки. Если шапка сайта закрыта, поисковики могут не узнать, что вы позаботились о посетителях и поместили важную информацию на видном месте;

– скрываются от индексации фильтры, форма поиска, сортировка. Наличие таких возможностей у интернет-магазина – важный коммерческий показатель, который лучше показать, а не прятать.
– прячется информация об оплате и доставке. Это делают, чтобы повысить уникальность на товарных карточках. А ведь это тоже информация, которая должна быть на качественной товарной карточке.
– со страниц «вырезается» меню, ухудшая оценку удобства навигации по сайту.

Зачем на сайте закрывают часть контента?
Обычно есть несколько целей:
– сделать на странице акцент на основной контент, убрав из индекса вспомогательную информацию, служебные блоки, меню;
– сделать страницу более уникальной, полезной, убрав дублирующиеся на сайте блоки;
– убрать «лишний» текст, повысить текстовую релевантность страницы.

Всего этого можно достичь без того, чтобы прятать часть контента!
У вас очень большое меню?
Выводите на страницах только те пункты, которые непосредственно относятся к разделу.

Много возможностей выбора в фильтрах?
Выводите в основном коде только популярные. Подгружайте остальные варианты, только если пользователь нажмёт кнопку «показать всё». Да, здесь используются скрипты, но никакого обмана нет – скрипт срабатывает по требованию пользователя. Найти все пункты поисковик сможет, но при оценке они не получат такое же значение, как основной контент страницы.

На странице большой блок с новостями?
Сократите их количество, выводите только заголовки или просто уберите блок новостей, если пользователи редко переходят по ссылкам в нём или на странице мало основного контента.

Поисковые роботы хоть и далеки от идеала, но постоянно совершенствуются. Уже сейчас Google показывает скрытие скриптов от индексирования как ошибку в панели Google Search Console (вкладка «Заблокированные ресурсы»). Не показывать часть контента роботам действительно может быть полезным, но это не метод оптимизации, а, скорее, временные «костыли», которые стоит использовать только при крайней необходимости.

Мы рекомендуем:
– относиться к скрытию контента, как к «костылю», и прибегать к нему только в крайних ситуациях, стремясь доработать саму страницу;
– удаляя со страницы часть контента, ориентироваться не только на текстовые показатели, но и оценивать удобство и информацию, влияющую на ;
– перед тем как прятать контент, проводить эксперимент на нескольких тестовых страницах. Поисковые боты умеют разбирать страницы и ваши опасения о снижение релевантности могут оказаться напрасными.

Давайте рассмотрим, какие методы используются, чтобы спрятать контент:

Тег noindex

У этого метода есть несколько недостатков. Прежде всего этот тег учитывает только Яндекс, поэтому для скрытия текста от Google он бесполезен. Помимо этого, важно понимать, что тег запрещает индексировать и показывать в поисковой выдаче только текст. На остальной контент, например, ссылки, он не распространяется.

Поддержка Яндекса не особо распространяется о том, как работает noindex. Чуть больше информации есть в одном из обсуждений в официальном блоге.

Вопрос пользователя:

«Не до конца понятна механика действия и влияние на ранжирование тега текст. Далее поясню, почему так озадачены. А сейчас - есть 2 гипотезы, хотелось бы найти истину.

№1 Noindex не влияет на ранжирование / релевантность страницы вообще

При этом предположении: единственное, что он делает - закрывает часть контента от появления в поисковой выдаче. При этом вся страница рассматривается целиком, включая закрытые блоки, релевантность и сопряженные параметры (уникальность; соответствие и т. п.) для нее вычисляется согласно всему имеющему в коде контенту, даже закрытому.

№2 Noindex влияет на ранжирование и релевантность, так как закрытый в тег контент не оценивается вообще. Соответственно, все наоборот. Страница будет ранжироваться в соответствии с открытым для роботов контентом.»

В каких случаях может быть полезен тег:
– если есть подозрения, что страница понижена в выдаче Яндекса из-за переоптимизации, но при этом занимает ТОПовые позиции по важным фразам в Google. Нужно понимать, что это быстрое и временное решение. Если весь сайт попал под «Баден-Баден», noindex, как неоднократно подтверждали представители Яндекса, не поможет;
– чтобы скрыть общую служебную информацию, которую вы из-за корпоративных ли юридических нормативов должны указывать на странице;
– для корректировки сниппетов в Яндексе, если в них попадает нежелательный контент.

Скрытие контента с помощью AJAX

Это универсальный метод. Он позволяет спрятать контент и от Яндекса, и от Google. Если хотите почистить страницу от размывающего релевантность контента, лучше использовать именно его. Представители ПС такой метод, конечно, не приветствую и рекомендуют, чтобы поисковые роботы видели тот же контент, что и пользователи.
Технология использования AJAX широко распространена и если не заниматься явным клоакингом, санкции за её использование не грозят. Недостаток метода – вам всё-таки придётся закрывать доступ к скриптам, хотя и Яндекс и Google этого не рекомендуют делать.

Страницы сайта

Для успешного продвижения важно не только избавиться от лишней информации на страницах, но и очистить поисковый индекс сайта от малополезных мусорных страниц.
Во-первых, это ускорит индексацию основных продвигаемых страниц сайта. Во-вторых, наличие в индексе большого числа мусорных страниц будет негативно влиять на оценку сайта и его продвижение.

Сразу перечислим страницы, которые целесообразно прятать:

– страницы оформления заявок, корзины пользователей;
– результаты поиска по сайту;
личная информация пользователей;
– страницы результатов сравнения товаров и подобных вспомогательных модулей;
– страницы, генерируемые фильтрами поиска и сортировкой;
– страницы административной части сайта;
– версии для печати.

Рассмотрим способы, которыми можно закрыть страницы от индексации.

Закрыть в robots.txt

Это не самый лучший метод.

Во-первых, файл robots не предназначен для борьбы с дублями и чистки сайтов от мусорных страниц. Для этих целей лучше использовать другие методы.

Во-вторых, запрет в файле robots не является гарантией того, что страница не попадёт в индекс.

Вот что Google пишет об этом в своей справке:

Метатег noindex

Чтобы гарантированно исключить страницы из индекса, лучше использовать этот метатег.

Ниже приведём вариант метатега, который понимают оба поисковика:

Важный момент!

Чтобы Googlebot увидел метатег noindex, нужно открыть доступ к страницам, закрытым в файле robots.txt. Если этого не сделать, робот может просто не зайти на эти страницы.

Заголовки X-Robots-Tag

Существенное преимущество такого метода в том, что запрет можно размещать не только в коде страницы, но и через корневой файл.htaccess.

Этот метод не очень распространён в Рунете. Полагаем, основная причина такой ситуации в том, что Яндекс этот метод долгое время не поддерживал.
В этом году сотрудники Яндекса написали, что метод теперь поддерживается.

Ответ поддержки подробным не назовёшь))). Прежде чем переходить на запрет индексации, используя X-Robots-Tag, лучше убедиться в работе этого способа под Яндекс. Свои эксперименты на эту тему мы пока не ставили, но, возможно, сделаем в ближайшее время.

Защита с помощью пароля

Если нужно скрыть весь сайт, например, тестовую версию, также рекомендуем использовать именно этот метод. Пожалуй, единственный недостаток – могут возникнуть сложности в случае необходимости просканировать домен, скрытый под паролем.

Исключить появление мусорных страниц c помощью AJAX

Речь о том, чтобы не просто запретить индексацию страниц, генерируемых фильтрами, сортировкой и т. д., а вообще не создавать подобные страницы на сайте.

Например, если пользователь выбрал в фильтре поиска набор параметров, под которые вы не создавали отдельную страницу, изменения в товарах, отображаемых на странице, происходит без изменения самого URL.

Сложность этого метода в том, что обычно его нельзя применить сразу для всех случаев. Часть формируемых страниц используется для продвижения.

Например, страницы фильтров. Для «холодильник + Samsung + белый» нам нужна страница, а для «холодильник + Samsung + белый + двухкамерный + no frost» – уже нет.

Поэтому нужно делать инструмент, предполагающий создание исключений. Это усложняет задачу программистов.

Использовать методы запрета индексации от поисковых алгоритмов

«Параметры URL» в Google Search Console

Этот инструмент позволяет указать, как идентифицировать появление в URL страниц новых параметров.

Директива Clean-param в robots.txt

В Яндексе аналогичный запрет для параметров URL можно прописать, используя директиву Clean-param.
Почитать об этом можно .

Канонические адреса, как профилактика появления мусорных страниц на сайте
Этот метатег был создан специально для борьбы с дублями и мусорными страницами на сайте. Мы рекомендуем прописывать его на всём сайте, как профилактику появления в индексе дубле и мусорных страниц.

Инструменты точечного удаления страниц из индекса Яндекса и Google

Если возникла ситуация, когда нужно срочно удалить информацию из индекса, не дожидаясь, пока ваш запрет увидят поисковые работы, можно использовать инструменты из панели Яндекс.Вебмастера и Google Search Console.

В Яндексе это «Удалить URL»:

В Google Search Console «Удалить URL-адрес»:

Внутренние ссылки

Внутренние ссылки закрываются от индексации для перераспределения внутренних весов на основные продвигаемые страницы. Но дело в том, что:
– такое перераспределение может плохо отразиться на общих связях между страницами;
– ссылки из шаблонных сквозных блоков обычно имеют меньший вес или могут вообще не учитываться.

Рассмотрим варианты, которые используются для скрытия ссылок:

Тег noindex

Для скрытия ссылок этот тег бесполезен. Он распространяется только на текст.

Атрибут rel=”nofollow”

Сейчас атрибут не позволяет сохранять вес на странице. При использовании rel=”nofollow” вес просто теряется. Само по себе использование тега для внутренних ссылок выглядит не особо логично.

Скрытие ссылок с помощью скриптов

Это фактически единственный рабочий метод, с помощью которого можно спрятать ссылки от поисковых систем. Можно использовать Аjax и подгружать блоки ссылок уже после загрузки страницы или добавлять ссылки, подменяя скриптом тег на . При этом важно учитывать, что поисковые алгоритмы умеют распознавать скрипты.

Как и в случае с контентом – это «костыль», который иногда может решить проблему. Если вы не уверены, что получите положительный эффект от спрятанного блока ссылок, лучше такие методы не использовать.

Заключение

Удаление со страницы объёмных сквозных блоков действительно может давать положительный эффект для ранжирования. Делать это лучше, сокращая страницу, и выводя на ней только нужный посетителям контент. Прятать контент от поисковика – костыль, который стоит использовать только в тех случаях, когда сократить другими способами сквозные блоки нельзя.

Убирая со страницы часть контента, не забывайте, что для ранжирования важны не только текстовые критерии, но и полнота информации, коммерческие факторы.

Примерно аналогичная ситуация и с внутренними ссылками. Да, иногда это может быть полезно, но искусственное перераспределение ссылочной массы на сайте – метод спорный. Гораздо безопаснее и надёжнее будет просто отказаться от ссылок, в которых вы не уверены.

Со страницами сайта всё более однозначно. Важно следить за тем, чтобы мусорные, малополезные страницы не попадали в индекс. Для этого есть много методов, которые мы собрали и описали в этой статье.

Вы всегда можете взять у нас консультацию по техническим аспектам оптимизации, или заказать продвижение под ключ, куда входит .

Необходимо, чтобы страницы были проиндексированы. Индексация сайта - что это такое простыми словами? У каждой поисковой системы есть свой собственный поисковый робот. Он может в любой момент зайти на сайт и «погулять» по нему, передавая все отсканированные документы (весь html-код, текст, изображения, ссылки и все остальное) в базу своей поисковой системы. Этот процесс принято называть «сканированием».

Ну а теперь давайте искать ответы на вопросы «как ускорить индексацию?» и «как улучшить индексацию?»

Как проверить индексацию сайта в Google и Яндекс

Существует несколько способов получения ответа на вопросы «а проиндексирована ли эта страница?», «сколько страниц проиндексировано?» и т.п. Рассмотрим некоторые из самых эффективных. Но для начала маленькое уточнение - обработка поискового запроса и формирование поисковой выдачи происходит на основе проиндексированных «копий» страниц, находящихся в базе данных поисковой системы, а не на основе имеющихся на сайте страниц. Ну а теперь о трех способах проверки индексации:

    Кабинеты поисковых систем Яндекс, Google, Mail.ru и т.д. Уж там-то со 100% вероятностью можно получить все необходимые данные.

    В Рунете полно подходящих онлайн-сервисов. Практически все они работают одинаково: указывается адрес сайта и получаем данные и вся история индексации сайта как на ладони.

    Ручная проверка с помощью оператора site:. Т.е. вбиваем в поисковую строку site:your-site.guru и тут же получаем и список проиндексированных страниц (в виде поисковой выдачи), и их количество.

Проверить индексацию сайта в Яндекс.Вебмастере

Здесь можно сразу закинуть столбиком список сайтов, которые необходимо проверить на индексацию. Причем в списке могут быть как исключительно имена доменов (например, your-site.go), так и ссылки на какие-то конкретные документы (например, your-site.go/content/domashka/) - это не имеет значения, т.к. имена доменов сервис «вычленяет» автоматически.

Данный сервис умеет проверять индексацию в Google и Яндексе. Допускается до 250 проверок в сутки.

Если коротко, то сервис полностью аналогичен предыдущему, за двумя исключениями:

  • сервис проверяет индексацию «поштучно», т.е. за один заход можно проверить только один сайт;
  • можно проверить индексацию еще и в Bing’е.

Как ускорить индексацию сайта

Вряд ли у кого-то из вас возникнет вопрос «а зачем ускорять индексацию?», т.к. ответ на него и так очевиден: чтоб как можно быстрее предпринять все необходимые меры для завоевания всех топовых позиций по продвигаемым запросам.

Самое первое, что нужно сделать - добавить сайт в Ваши вебмастер-кабинеты от Google и Яндекса. Если этого не сделать, то сайт будет индексироваться очень медленно и очень редко, оставляя вебмастера наедине со своими пестами о покорении хотя бы ТОП-10.

Далее необходимо правильно настроить robots.txt, т.к. за одно посещение поисковый робот может отсканировать лишь определенное количество страниц. И будет очень обидно, если робот начнет сканировать страницы «технического» характера (например, страница регистрации на сайте, либо страница ввода логина-пароля), которым в индексе делать нечего. Чтоб этого не происходило, в файл robots.txt заносятся данные о том, какие страницы сканировать не нужно. О том, как составляется robots.txt, сейчас рассказывать не будем, т.к. у нас уже есть подробнейшая статья на эту тему.

Следующим этапом является настройка xml-карты сайта (sitemap.xml). Она содержит в себе список всех страниц, которые должны быть проиндексированы поисковыми системами. Также можно указать приоритет индексирования, и даже интервалы. Чем чаще будет обновляться карта сайта - тем выше вероятность того, что поисковый робот примет решение заходить на сайт почаще (а нам именно это и нужно, верно?).

Скорость работы сайта также может повлиять на индексацию, т.к. чем быстрее поисковый робот получает ответ на свой запрос - тем лучше, ибо если сказать роботу «у нас обед, приходите через час» - робот просто уйдет, причем надолго.

Ошибки в коде также могут повлиять на индексацию, только негативно. Поэтому крайне важно, чтоб ошибок в коде не было совсем, т.к. вместо кода 200 (а именно такой код отдается при правильной работе) поисковый робот может получить код, например, 404, либо другой, свидетельствующий об ошибке.

В большинстве случаев, описанных выше мер достаточно, чтоб сайт индексировался достаточно быстро.

Быстрая индексация сайта в Яндексе

Есть еще пара неочевидных способов ускорить индексацию нового сайта в Яндексе. Мы уже многократно упоминали о регистрации в вебмастер-кабинетах от Яндекса, Google, Bing и Mail.

В данных кабинетах можно получать статистику о переиндексации страниц, а также получать уведомления о тех или иных ошибках, связанных с работой сайта.

А вот теперь небольшой «лайфхак». В Яндекс.Вебмастере идем в «Индексирование» - «Переобход страниц» и указываем адрес только что созданной страницы. Да, мы не спорим, это не всегда срабатывает, т.к. поисковый робот Яндекса после уведомления действует на свое усмотрение и не всегда принимает решение о посещении этой страницы, но он о ней как минимум узнает. Поэтому мы рекомендуем пользоваться данным инструментом для ускорения индексация нового сайта или его страниц.

Индексация картинок сайта

В основном получение данной информации будет полезно в том случае, если Вы продвигаете, скажем, фотохостинг.

Важно отметить, что у Google, Bing и Яндекса текст и картинки индексируются разными роботами. Быстрее всего картинки индексируются Google’ом. Яндекс индексирует картинки гораздо медленнее по сравнению с Google, но гораздо быстрее по сравнению с Bing, причем последняя медленно индексирует только рунетовские сайты. Не доверяет?

Однако, есть один универсальный совет по оптимизации изображений - прописать в коде атрибуты alt=”” и title=”” для каждого изображения, т.к. они оба очень важны.

Если навести на картинку, то может «всплыть» поясняющая текстовая подсказка, чтобы пользователю было проще понять «куда смотреть и что видеть». Текст этой самой подсказки и прописывается в атрибуте title=””

Также бывают ситуации, когда изображение по каким-то причинам не загружается (может оно удалено, может в браузере отключена загрузка картинок - неважно). В этом случае вместо фотографии должен появиться текст, описывающий, что именно изображено на картинке, которая не загрузилась. Именно этот текст и прописывается в атрибуте alt=””.

Как узнать, сколько картинок проиндексировано поисковиком?

Ответ предельно прост: идем в интересующую нас поисковую систему, в поисковой строке вбиваем оператор site:, после двоеточия без пробела прописываете имя домена, подтверждаем запрос клавишей Enter, а затем переходим на вкладку «Изображения» или «Картинки» (в зависимости от поисковой системы). Вы увидите сами картинки, а также узнаете их точное количество.

Для Яндекса это будет выглядеть вот так:

А для Google - вот так

Вопросы

Как запретить индексацию сайта

Иногда возникает необходимость установить запрет на индексацию сайта. Причин на это может быть несколько - технические работы на сайте, либо тестируется новый дизайн, и т.д.

Способов сказать поисковым системам «не надо тут ничего индексировать» несколько.

Самый первый, самый популярный и самый простой - через файл robots.txt. Достаточно просто прописать вот этот код:

Теперь давайте разберем, что этот код означает.

User-agent - это директива, в которой указывается имя поискового робота, для которого сформирован список правил. Если в качестве имени указана звездочка - значит список актуален для всех поисковых роботов (кроме тех, для кого составлены индивидуальные списки правил). Если же указать вместо звездочки имя поискового робота, то список правил будет действовать именно для него:

User-agent: yandex

Директива Disallow: предназначена для того, чтобы сообщить поисковым роботам, какие файлы/папки сканировать не нужно. В нашем случае одиночный слеш показывает, что запрещено индексировать весь сайт целиком.

Бывают и особые случаи, когда требуется закрыть индексацию для всех поисковых систем, кроме какой-то конкретной. В этом случае у нас будет 2 списка (один из которых приведен выше на скриншоте), а второй - индивидуальный список для какого-то конкретного робота. В данном случае - робота поисковой системы Яндекс.

User-agent: Yandex

С User-agent и Disallow разобрались, теперь разберемся с директивой Allow. Она является разрешающей директивой. Говоря простым языком, приведенный выше код файла robots.txt запрещает индексацию сайта всем поисковым системам, кроме Яндекса.

Да, мы не спорим, не смотря на запреты, поисковые системы все равно могут проиндексировать сайт. Однако, это бывает настолько редко, что даже статистической погрешностью можно назвать с большой натяжкой.

Второй способ - метатег robots. Для этого необходимо в код сайта добавить следующую строку:

META NAME=”ROBOTS” CONTENT=”NOINDEX, NOFOLLOW”

ВАЖНО!!! Можно ее добавить таким образом, чтоб она прогружалась в код каждой страницы сайта без исключения, а можно добавить на какие-то отдельные страницы. Но в обоих случаях данный мета-тег должен быть размещен в области head html.

По сравнению с первым, второй способ является более сложным для массового запрета на индексацию, и более легким для точечного.

Третий способ - закрытие сайта через.htaccess

Способ тоже довольно простой - добавить в файл.htaccess следующий код:

Теперь поисковый робот не сможет без пароля получить доступ к сайту.

Это самый верный способ закрыть сайт от индексации, но появляется другая проблема - возникают сложности со сканированием сайта на наличие ошибок, т.к. не каждый парсер умеет авторизовываться.

Способ 4 представляет собой настройку заголовка ответа HTTP

Данный способ так же достаточно эффективен для точечного запрета на индексацию. Работает это следующим образом - вместе с кодом ответа сервера отдается еще и X-Robots-Tag заголовок с пометкой noindex. Получив такой «сопроводительный» ответ, поисковая система не будет индексировать данную страницу.

При необходимости можно отдавать несколько X-Robots-Tag заголовков. В данном случае их два noarchive и unavailable_after.

При необходимости можно перед директивой указывать еще и поискового робота, которому адресована директива, да и сами директивы можно писать через запятую. Например, вот так:

Ну и, конечно же, Вы уже и сами догадались, что при отсутствии имени юзер-агента команда будет выполняться всеми роботами. Т.е. директивы можно по-разному комбинировать для разных поисковых роботов.

Как открыть сайт для индексации

Ответ ранее уже прозвучал - с помощью директивы Allow (вспомните пример, когда с помощью robots.txt мы закрывали от индексации сайт для всех поисковых систем, кроме Яндекса).

Allow: / разрешает индексацию сайта, а Disallow: / запрещает.

Когда последний раз проходила индексация сайта

Посмотреть и историю обхода страниц поисковыми роботами Google достаточно просто. Для начала в поисковую строку вбивается оператор site:, после двоеточия без пробелов указывается имя Вашего домена, затем кликаем в «Инструменты» и выбрать в одном из столбцов подходящий период. Если выбрать «за последние 24 часа», то можно получить либо список станиц, которые были проиндексированы за последние 24 часа, либо получить «Ничего не найдено». Это значит, что за последние 24 часа переиндексации Вашего сайта не было.

В Яндексе же сделано все еще проще - вся необходимая информация и история доступна в Яндекс.Вебмастере:

Как добавить сайт на индексацию

Данная информация будет полезна всем, кто только что создал свой первый сайт, т.е. чем быстрее проиндексируется сайт - тем быстрее Вы получите свой первый поисковый трафик.

Добавление сайта в Google

Для начала переходим по ссылке http://www.google.com/addurl/?continue=/addurl , логинимся (при необходимости), вводим URL, проходим капчу (в данном случае - ставим галочку «Я не робот» и проходим 1-2 задания с картинками), и жмем «Отправить запрос».

Затем Вам будет выдано вот такое сообщение. Оно означает «ОК, сайт принят к сведенью, скоро мы туда заглянем».

Если с сайтом все в порядке, то индексация произойдет очень быстро.

Добавление сайта в Яндекс

Первым делом заходим на https://webmaster.yandex.ru/ , регистрируемся, затем переходим в «Индексирование» - «Переобход страниц» и добавляем туда имя домена Вашего сайта. Всё.

Добавление сайта в Bing

Тут все еще проще - идём сюда http://www.bing.com/toolbox/submit-site-url , вводим имя домена, капчу, и все - готово! Регистрация при этом не требуется.

ВАЖНО!!! На данный момент продвигать в Bing русскоязычные сайты бессмысленно, в отличие от англоязычных. Это связано с тем, что в России крайне мало кто знает про поисковую систему Bing.

Добавление сайта в Поиск Mail.ru

Данная процедура тоже достаточно проста - переходим в кабинет вебмастера mail.ru по ссылке http://go.mail.ru/addurl , регистрируемся/логинимся, затем указываем имя домена сайта, вводим капчу и жмем «Добавить».

Затем на экран будет выведено вот такое сообщение:

P.S. Индексация сайта на Wordpress, Wix, Joomla, Ucoz или на любой другой CMS или конструкторе - ничем не отличается. Все зависит от набора правил, которые прописаны в файле robots.txt или же в самом коде страниц. Более подробно узнать о том, как правильно настроить файл robots.txt, а также как открыть или закрыть страницы от сканирования в Яндекс и Google прочтите ЭТУ статью! Также, в статье вы найдете готовые файлы robots для правильной индексации сайтов WordPress, Joomla, Wix в Яндексе и Гугле.

Не так давно компания Google на пару с NASA (да-да, с аэрокосмическим агентством США) купила у канадской компании D-Wave Systems квантовый компьютер (ну или то, что на сегодня называется квантовым компьютером). Сообщалось, что на его базе планировали (с этой осени) запустить лабораторию по изучению искусственного интеллекта с применением достижений квантовой физики.

Что такое квантовый компьютер - долго объяснять. Но представьте себе в перспективе - некий огромный суперкомпьютер, у которого весь интернет будет находится в оперативной памяти. Необходимости индексировать новый контент и новую информацию, размещаемую в интернете - уже не будет. Информация сразу будет в поиске! В момент ее публикации в интернете! Как вам такая скорость... хотел сказать "индексации", но по-сути "индексации" в привычном значении этого слова уже не будет!

Но пока это в перспективе, и, кажется, не совсем уж такой далекой! Мгновенная индексация информации не за горами. И это хорошо иллюстрирует новшество от компании Google. Теперь по запросу вебмастера, Google сканирует мгновенно предложенный ему адрес странички и также мгновенно размещает его в поиске. Да, такой сервис есть и называется он не аддурилка Google, куда надо сообщать о новом сайте. Инструмент находится в кабинете вебмастеров от Google и доступен всем желающим вебмастерам, подтвердившим права управления на свой сайт.

Как мгновенно проиндексировать страничку в Google?

Быстрая индексация материалов сайтов - головная боль вебмастеров (каких тем только не создано на веб-форумах: "Как быстро вогнать сайт в индекс Google ", "Как ускорить индексацию сайта? ", "Как мгновенно проиндексировать содержимое сайта? " и т.д.). Поскольку преимущественно публикуются уникальные материалы, то существует вероятность кражи контента и публикации его на быстроиндексируемом сайте. Однако, с нововведением Google, это уже в прошлом. Сейчас возможно отправлять странички в Google не только на индексацию, но и прямо в результаты поиска. Делается это очень и очень просто.

  1. Заходим в кабинет вебмастера Google -
  2. На главной странице Инструментов для веб-мастеров выберите нужный сайт (страницы которого нужно вогнать в индекс)
  3. На левой панели находим функцию Просмотреть как Googlebot
  4. В появившемся текстовом поле указываем путь к новой страничке в интернете
  5. В раскрывающемся списке не трогаем (установленный по умолчанию) Веб
  6. Нажимаем Получить содержание (Google получит содержание указанного URL, несколько раз перезагрузив страницу; не спешите ничего нажимать, этот процесс может занять до 10-15 минут).
  7. Когда получим сообщение об успешном получении содержимого, нам станет доступна кнопочка Добавить в индекс - нажимаем на нее.
  8. Нам предложат выбрать одно из двух:

Чтобы добавить отдельный URL в индекс Google, выберите URL и нажмите Отправить (используя этот способ, можно добавлять до 500 URL в неделю)

Чтобы добавить URL и все страницы, на которые он ссылается, выберите URL и все связанные страницы (можно отправлять до 10 таких запросов в месяц)

Непосредственно в кабинете вебмастеров Google это выглядит примерно так:

На официальной страничке документации - нового метода, где подчеркнуты его главные приимущества:

Попасть в результаты поиска Google просто. Не нужно ничего платить, не нужно даже отправлять свой сайт в Google

ясно указано, что

Google не может гарантировать, что все просканированные URL будут включены в индекс.

это подразумевает, что гарантии индексации новой странички в интернете такие же, как и при обычном сканировании поисковыми роботами. Никаких гарантий, что бредовые тексты, машинные и не несущие никакой полезной нагрузки будут попадать в индекс поисковой системы.

Как быстро индексируется страничка в Google?

Нигде не указано, сколько именно времени должно пройти, прежде чем страничка, указанная поисковым паукам, будет проиндексирована и доступна в поиске. Однако, собственные эксперименты показывают, что это происходит сразу . Что именно я вкладываю в слово "сразу "?

По неизвестным причинам, страница, добавленная на индексацию через Googlebot попадает в индекс от мгновенно (пару секунд) до нескольких минут (5-10). В целях эксперимента добавлялись в индекс такие страницы на редкообновляемых сайтах, которые самостоятельно не индексировались в Google по 4-6 дней (и успешно появлялись в индексе сразу же). Лишь в некоторых случаях, единичных, страничка вообще не появлялась в индексе. Впоследствии, она появлялась сама по себе, видимо во время очередного визита другого паука на сайт.

Такой вот подарок от Google любителям мгновенной индексации! Надеюсь, мои советы станут вам полезными!

Вконтакте

Оцените материал:

Мы выпустили новую книгу «Контент-маркетинг в социальных сетях: Как засесть в голову подписчиков и влюбить их в свой бренд».

Подписаться

До сих пор есть люди, которые используют файл robots.txt, чтобы закрыть сайт от индексации в поисковых системах и убрать его из результатов поиска. Объясним, почему файла robots.txt для этих целей недостаточно и что нужно сделать, чтобы страница или домен не появлялись в выдаче .

Самый очевидный способ скрыть нежелательные страницы из поисковой выдачи – закрыть их от индексации с помощью файла robots.txt. Но результат отличается от того, который ждешь: сайты все равно отображаются в поиске. В этой статье Йост де Валк из Yoast объясняет, почему так происходит, и рассказывает, что нужно сделать, чтобы страница или сайт исчезли из выдачи.

Разница между индексированием и показом в результатах поиска Google

Прежде чем объяснить, почему запрет на индексирование сайта не мешает поисковику выводить его в выдаче, вспомним несколько терминов:

  • Индексирование – процесс скачивания сайта или страницы контента на сервер поисковой системы, вследствие которого сайт или страница добавляется в индекс.
  • Ранжирование/ отображение в поиске – отображение сайта среди результатов поиска.

Наиболее распространенное представление о попадании сайта/страницы в результаты поиска выглядит как двухэтапный процесс: индексирование => ранжирование. Но чтобы отображаться в поиске, сайт не обязательно должен индексироваться. Если есть внешняя ссылка на страницу или домен (линк с другого сайта или с индексируемых внутренних страниц), Google перейдет по этой ссылке. Если robots.txt на этом домене препятствует индексированию страницы поисковой системой, Гугл все равно будет выводить URL в выдаче. Он ориентируется на внешние источники, которые содержат ссылку и ее описание. Раньше источником мог быть DMOZ или директория Yahoo. Сегодня я вполне могу представить, что Google использует, например, ваш профиль в My Business или данные из других сайтов.

Если написанное выше кажется вам бессмысленным, посмотрите видео с объяснением Мэтта Каттса.

Адаптация видео:

Пользователи часто жалуются на то, что Google игнорирует запрет на индексирование страницы в robots.txt и все равно показывает ее в результатах выдачи. Чаще всего происходит следующее: когда некто отправляет роботу сигнал на запрет индексирования страницы, она появляется в поиске с необычным сниппетом – без текстового описания. Причина: краулеры не сканировали страницу. Они видели только упоминание URL. Именно потому что роботы видели ссылку, а не саму страницу, в выдаче пользователям предлагается сниппет без дескрипшна. Обратимся к примеру.

В какой-то момент California Department of Motor Vehicles, домен www.dmv.ca.gov, заблокировала все поисковые системы с помощью robots.txt. Но если пользователь ищет информацию по запросу California DMV, есть только один релевантный ответ, который поисковик должен предложить пользователю. Несмотря на robots.txt, который говорит роботу, что он не должен сканировать страницу, краулер видит, что многие сайты ссылаются на определенную страницу, используя анкоры с текстом California DMV. Роботы понимают, что эта страница – результат, наиболее релевантный запросу пользователя. Поэтому они показывают результат в выдаче даже без сканирования страницы. Желание предоставить пользователю результат, наиболее релевантный запросу, может быть единственной причиной, по который Google выводит в результатах поиска страницы, не сканированные краулерами.

Еще один пример – сайт Nissan. Долгое время Nissan использовал robots.txt для запрета индексирования всех страниц. Но мы обнаружили сайт и его описание в открытом каталоге DMOZ. Поэтому когда пользователи получали ссылку на сайт среди результатов, они видели такой же сниппет, как и у обычных страниц, которые были просканированы краулерами. Но этот сниппет был составлен не на основе результатов сканирования. Он был создан из информации DMOZ.

В итоге: Google может показать что-то, что считает полезным пользователю, без нарушения запрета на сканирование в robots.txt.

Если вы не хотите, чтобы страница отображалась в поиске, позвольте роботам просканировать страницу, а затем используйте атрибут . Когда робот видит тег «noindex», он выбрасывает страницу изо всех поисковых результатов. Страница не появляется в поиске, даже если на нее ссылаются другие сайты.

Другой вариант – использовать инструмент удаления URL . Блокируйте сайт полностью в robots.txt, а после используйте инструмент удаления URL.

Что получается: закрывая сайт от сканирования, вы лишаете краулеров возможности узнать, что запретили отображение сайта в поисковой системе.


Поэтому:

Чтобы запретить появление сайта в результатах поиска, вам нужно позволить краулерам Google просканировать страницу.

Это может выглядеть противоречиво. Но только так вы сможете скрыть сайт в результатах поиска.

Как запретить отображение страницы в результатах поиска

С помощью добавления метатега robots

Первый вариант запрета показа страницы в Google – использование метатега robots. Вам нужно добавить этот тэг на свою страницу:

Проблема с тэгом в том, что его нужно будет добавить на каждую страницу.

Ирина Винниченко

Контент-маркетолог SEMANTICA

Есть еще одна проблема – с помощью метатега robots можно скрывать только html-документы. Это значит, что метатег нельзя применить для документов в формате pdf, doc, xml, а также для аудио и видео контента. Чтобы скрыть документы не в html, нужно использовать файл robots.txt. Что замыкает круг. Потому что эти документы могут появиться в выдаче.

Использовать X-Robots-Tag HTTP header

Добавлять метатег robots к каждой странице сайта сложно. Упрощает задачу X-Robots-Tag HTTP header. С его помощью можно управлять индексированием сайта и его показом в результатах поиска. Так, вы можете установить директиву noindex и nofollow. Noindex – запрет на отображение страницы и сохраненной копии в результатах поиска, nofollow – запрет на переход по ссылкам на этой странице.

Почему X-Robots-Tag HTTP header крут:

  • Закрывает от попадания в поиск все файлы – как html, так и pdf, doc, xml.
  • Не нужно обрабатывать каждую страницу, можно сразу скрыть из результатов поиска весь сайт.

Если ваш сайт на базе Apache, и mod_headers недоступны, в корневой файл.htaccess добавьте фрагмент кода:

Таким образом ваш сайт будет индексироваться. Но не появятся в результатах поиска.

Чтобы убрать сайт из поиска, не используйте robots.txt. Вместо этого используйте X-Robots-Tag или метатег robots.

Выжимка

  • robots.txt закрывает сайт от индексирования, но сайт все равно может появиться в результатах поиска.
  • Чтобы скрыть страницы или сайт из поиска, используйте метатег robots или X-Robots-Tag HTTP header.
  • Метатег robots нужно добавлять на каждую страницу, которую хотите скрыть, по отдельности. Его можно использовать только для html-документов.
  • X-Robots-Tag HTTP header позволяет скрыть из результатов поиска сразу весь сайт. Его можно использовать как для скрытия html-документов, так и файлов других форматов – pdf, doc, xml.
  • Не нужно запрещать сканирование страницы файлом robots.txt. Если сканирование будет запрещено, краулеры не увидят директивы относительно индексирования и отображения в поиске. Значит, они не выполнят директивы, и сайт появится в выдаче.

Одной из самых распространенных проблем, которые испытывают на себе различные оптимизаторы, когда пытаются занять место для своего сайта в Google является то, что сайт перестаёт корректно индексироваться. Это означает, что поисковой системе Google не удается получить доступ к веб-страницам для индексации их содержимого.

Чтобы проверить эффективно ли ваш сайт сканирует робот Гугла, нужно войти в инструменты для вебмастеров Google Webmaster Tools и проверить индексацию на вкладке «Индекс Google». Там вы найдете общее количество страниц, которое проиндексировал поисковой паук. Если вы видите падение числа этих страниц, вы, вероятно, испытывает снижение уровня трафика на сайте.

Ищем причину плохого индексирования сайта в Гугл

Если вы уже рассматривали информацию из инструментов для вебмастеров Google и обнаружили, что не все ваши страницы были проиндексированы этой поисковой системой, то сейчас самое время, чтобы разобраться в возможных проблемах. Имеются в виду проблемы, которые Гугл испытывает со сканированием вашего сайта.

Существует на вашем сайте ошибки доступа (Crawler)?

Начать нужно за заголовков, которые отдаёт сервер. Для этого переходим в Google Webmaster Tools и проверяем «Сообщения об ошибках» с вкладки «Сканирование». Наиболее вероятная ошибка, которую вы найдете — это 404 HTTP код. Это сигнализирует о том, что URL не может быть найден.


Другие ошибки доступа включают в себя:

  • Robots.txt — плохое содержание файла robots.txt может быть вредным для индексации. Это , которые указывают роботам поисковой системе что нужно индексировать, а что — нет. Если он включает в себя строку, например, «User-Agent: * Disallow: /» — это говорит о полном запрете индексации каждой ПС, в том числе и Google.
  • .htaccess — это невидимый файл может наделать много неприятных вещей, если он не правильно настроен на вашем сайте. Большинство клиентов FTP позволяет отображать скрытые файлы, так что вы можете получить доступ к нему при необходимости.
  • Мета-теги — если у вас есть страницы, которые не индексируются, убедитесь, что они не имеют следующих мета-тегов в исходном коде:
  • Карта сайта — если вы получаете ошибку с , то это означает, что она не обновляется должным образом. Возможно ваша старая карта сайта в настоящее время повторно отправлена в Google вместо новой. Когда вы решаете любые вопросы, связанные с этим, убедитесь, что вы указали свежую карту сайта и повторно отправили её.
  • Параметры ссылок — Google предоставляет средства для настройки параметров URL, когда дело доходит до динамических связей. Однако неправильная конфигурация URL может привести к выпадению страниц из индекса.
  • Вопросы DNS или подключения — если пауки Google просто не могут достичь ваш сервер, то можно столкнуться с нарушением функции обходчика. Это может произойти по разным причинам, например, ваш хостинг закрыт на техническое обслуживание или были ошибки доступа по вашей вине.
  • Унаследованные проблемы — если вы купили старый домен или переместили свой новый ​​сайт вместо старого сайта, то вполне возможно, что предыдущие были оштрафованы Google. Это будет препятствовать индексации нового сайта. Вы должны будете подать заявку на пересмотр в Гугл.

Если вы планируете использовать домен с историей для своего сайта, не забудьте взглянуть на неё перед покупкой домена. Вы можете использовать для этих целей Интернет Архив Wayback Machine, чтобы увидеть страницы, которые ранее были размещены на вашем домене.

Существуют ли на вашем сайте синтаксические ошибки или структурные сложности?

Поисковая система Гугла очень терпима, когда дело доходит до HTML ошибок внутри веб-страниц, но не исключено, что синтаксические ошибки могут предотвратить индексацию (в крайних случаях). Проверьте HTML вашего сайта в W3C HTML Validator, чтобы увидеть отчет об ошибках, которые необходимо исправить.


Google советует делать структурe сайта логичной на столько, на сколько это возможно. Каждая страница должна быть доступна хотя бы по одной тестовой ссылке. Вы можете использовать специальный браузер, чтобы посмотреть на сайт так же, как это делают пауки различных поисковиков. Помните, что части вашего сайта, которые используют фреймы, JavaScript, Flash, идентификаторы сеансов и DHTML, поисковые пауки индексировать не могут.

Существуют ли входящие ссылки на ваш ресурс?

Чтобы быть проиндексированным в Google, ваш сайт должен иметь по крайней мере одну входящую ссылку с другого сайта, который уже проиндексирован в поисковых системах. Это общая причина, по которой индексирование новых сайтов занимает много времени.

Один из способов создать некоторые быстрые ссылки — это получение ссылок с социальных сетей. Социальные медиа профили, которые несут высокий вес — это Facebook страницы, профили Twitter, профили и страницы Google+, каналы YouTube и профили Pinterest.

Ведение блогов, помимо основного сайта, является еще одним прекрасным способом для налаживания связей, которые помогут индексировать ваш сайт должным образом. Нужно только убедиться, что контент, публикуемый на своём блоге и других блогах, имеет отношение к вашему сайту — на других блогах в вашей нише. Так вы получите свои первые входящие ссылки. Просто вы должны убедиться, что эти внешние сайты все высокого качества, так как спам-ссылки будут приносить вред вместо пользы. Лучший способ убедиться, что ваши ссылки высокого качества — убедиться, что они имеют «естественные ссылки», ссылки, которые развиваются в рамках динамической природы Интернета, где другие сайты ссылаются на содержание выбранного.

Руководство веб-мастера подскажет о более подробных моментах.

Есть нарушения, санкции и штрафы?

Одним из самых трудных препятствий в правильной индексации Google является штраф от Гугл. Есть ряд причин, почему вы могли столкнуться со штрафами от ПС, но если вы не имеете дело с такой проблемой, вы можете быть deindexed (сняты с поисковых систем).


Чтобы избежать наказания, нужно обходить стороной следующие моменты:

    • Автоматическое создание контента
    • Схемы Link
    • Плагиат или дублирование контента
    • Маскировка
    • Скрытая переадресация
    • Скрытые ссылки и текст
    • Страницы портала
    • Партнерские программы с небольшим содержанием стоимости
    • Использование не релевантных ключевых слов
    • Страницы, которые устанавливают трояны, вирусы и другие рекламные программы
    • Злоупотребление фрагментами
    • Автоматизация запросов к Google

Восстановление после штрафов Гугл требует напряженной работы и должной осмотрительности, чтобы удалить ссылки на вашей стороне. Вы должны будете отправить запрос на пересмотр, прежде чем ваш сайт начнёт эффективно индексироваться и ранжироваться.

Итоги

Большинство из этих проверок сделать быстро и легко, так что не позволяйте вашим SEO и ссылочным усилиям тратится впустую — убедитесь, что ваш сайт правильно проиндексирован Google. Это удивительно, как много сайтов имеют некоторые из самых маленьких ошибок, и это препятствует их правильной индексации. В конце концов, это больно сказывается на рейтинге сайта, что вредит трафику, что вредит продажам.



Рекомендуем почитать

Наверх