Как осуществляется поиск в поисковых системах. Поисковая система яндекс ру. Поисковая система, что это такое

Скачать на Телефон 03.03.2020
Скачать на Телефон

Поисковая система или просто “поисковик” – это , осуществляющая поиск интернет страниц в соответствии с запросом пользователя. Самая известная поисковая система в мире - это Google, самая популярная в России – Яндекс, а одной из самых старых поисковых систем является Yahoo. В архитектуре поисковой системы можно выделить поисковую машину – ядро системы, представленное набором программных модулей; базу данных или индекс , хранящую информацию обо всех известных поисковой системе интернет ресурсах; и набор сайтов, являющих собой точки входа пользователей в систему (www.google.com, www.yandex.ru, ru.yahoo.com, и т.д.). Все это соответствует классической трехуровневой архитектуре информационных систем: есть пользовательский интерфейс, бизнес логика, которая в данном случае представлена реализацией алгоритмов поиска и база данных.

Специфика поиска в интернете

На первый взгляд поиск в интернете мало чем отличается от обычного информационного поиска, например, от обработки к базе данных или от задачи поиска файла на . Так считали и разработчики первых поисковых систем в интернете, но со временем они осознали, что заблуждались…

Первое отличие поиска в интернете от обычного состоит в том, что алгоритм поиска по той же базе данных предполагает, что ее структура заранее известна поисковой машине и автору запроса. В интернете, по понятным причинам, это не так. Интернет страницы образуют собой не структуру каталога, а сеть, что также влияет на алгоритмы поиска, а формат данных, размещаемых на интернет ресурсах, никем не контролируется.

Второе отличие, как одно из следствий первого – это то, что запрос представляется не в виде набора значений параметров (критериев поиска), а в виде текста, написанного человеком на естественном для него языке. Таким образом, перед тем, как начать поиск нужно еще понять, чего именно хочет автор запроса. Замечу, понять не другому человеку, а вычислительной машине.

Третье отличие уже менее очевидное, но не менее принципиальное: в каталоге или базе данных все элементы равноправны. В интернете имеет место конкуренция, а, следовательно, и разделение на более “благонадежных поставщиков информации” и источников, близких по статусу к “информационному мусору”. Так классифицируют ресурсы люди, и также к ним относятся поисковые машины.

И в заключении следует добавить, что область поиска – это миллиарды страниц, по несколько килобайт и более каждая. Около десятка миллионов страниц добавляется ежедневно и столько же обновляется. Все это представлено различными цифровыми форматами. К сожалению, даже современные технологии и ресурсы, имеющиеся в распоряжении лидеров рынка поисковых услуг в интернете не позволяют им обрабатывать все это многообразие “на лету” и в полной объеме.

Из чего состоит поисковая машина

В первую очередь важно осознать еще одно и, наверное, самое существенное отличие между работой поисковой машины в интернете и работой любой другой информационной системы, осуществляющей поиск в различного рода каталогах и базах данных. Поисковая интернет машина не ищет информацию среди того, что есть в интернете на момент поступления запроса, а пытается сформировать ответ на основании собственного информационного хранилища - базы данных, называемой индексом, где она хранит досье на все известные ей и периодически его обновляет. Другими словами, поисковая машина работает не с оригиналом, а с проекцией области допустимых значений поиска. Все последние изменения в интернете могут отразиться в результатах поиска только после того, как соответствующие страницы будут проиндексированы - добавлены в индекс поисковой системы. Итак, поисковая система в первом приближении состоит из поисковой машины, базы данных или индекса (index) и точек входа в систему.

Теперь кратко о том, из чего состоит поисковая машина:

  • Паук или спайдер (spider). Приложение, которое занимается скачиванием страниц интернет ресурсов. Никуда паук не “заползает” – он лишь запрашивает содержимое страниц точно так же, как это делает обычный интернет браузер, отправляя на сервер HTTP запрос и получая от него ответ. После того, как содержимое страницы скачано, оно отправляется индексатору и краулеру, о которых рассказывается далее.

  • Индексатор (indexer). Индексатор производит первоначальный анализ содержимого скачанной страницы, выделяет основные части (название страницы, описание, ссылки, заголовки и т.д.) и раскладывает все это по разделам поисковой базы данных – помещает в индекс поисковой системы. Этот процесс называют индексацией интернет ресурсов , отсюда и название самой подсистемы. На основе результатов первоначального анализа индексатор также может принять решение, что страница вообще “недостойна” находиться в индексе. Причины такого решение могут быть разными: страница не имеет названия, является точной копией другой, уже имеющейся в индексе страницы или содержит ссылки на запрещенные законодательством ресурсы.

  • Краулер (crawler). Это “животное” призвано “ползать” по ссылкам, имеющимся на скачанной пауком странице. Краулер анализирует пути, ведущие с текущей страницы на другие разделы сайта, или на страницы внешних интернет ресурсов и определяет дальнейший порядок обхода пауком нитей всемирной паутины. Именно краулер находит новые для поисковой машины страницы и передает их пауку. Работа краулера построена на базе алгоритмов поиска на графах в ширину и глубину.

  • Подсистема обработки и выдачи результатов (Search Engine and Results Engine). Самая важная часть любой поисковой машины. Алгоритмы работы этой подсистемы компании разработчики хранят в строгой секретности, поскольку они являют собой коммерческую тайну. Именно эта часть поисковой машины отвечает за адекватность ответа поисковой системы на запрос пользователя. Здесь можно выделить два основных компонента:
    • Подсистема ранжирования. Ранжирование – это страниц интернет сайтов в соответствии с их релевантностью определенному запросу. Релевантность страницы – это, в свою очередь, степень соответствия содержания страницы смыслу запроса, и эту величину поисковая машина определяет самостоятельно, исходя из огромного количества параметров. Ранжирование – эта самая загадочная и спорная часть “искусственного интеллекта” поисковой машины. На ранжирование страницы, помимо ее структуры и содержимого (контента) также влияют: количество и качество ссылок, ведущих на данную страницу с других сайтов; возраст домена самого сайта; характер поведения пользователей, просматривающих страницу и многие другие факторы.

    • Подсистема выдачи результатов. В задачи этой подсистемы входит интерпретация пользовательского запроса, его перевод на язык структурированных запросов к индексу и формирование страниц результатов поиска. Помимо разбора самого текста запроса, поисковая машина может также учитывать:
      • Контекст запроса , формируемый исходя из смысла ранее осуществленных пользователем запросов . К примеру, если пользователь часто посещает сайты на автомобильные темы, то на запрос со словом “Волга” или “Ока” он, вероятно, хочет получить информацию об автомобилях этих марок, а не о том, откуда начинают свое течение и куда впадают одноименные русские реки. Это называется персонализированным поиском , когда выдача на один и тот же запрос для разных пользователей существенно отличается.

      • Пользовательские предпочтения , о которых она (поисковая машина) может “догадываться”, анализируя выбираемые пользователем ссылки на страницах результатов поиска. Это еще один способ скорректировать контекст запроса: пользователь своими действиями как бы подсказывает машине, что именно он хотел найти. Как правило, поисковые машины в результаты поиска стараются добавлять страницы, релевантные запросу, но относящиеся к довольно разным сферам жизни. Допустим, пользователь интересуется кино и поэтому часто выбирает ссылки на страницы с анонсами киноновинок, даже если эти страницы не вполне релевантны исходному запросу. При формировании ответа на его очередной запрос система может отдавать предпочтение страницам с описанием фильмов, в названии которых встречаются слова из текста запроса.

      • Регион , что очень важно при обработке коммерческих запросов, связанных с приобретением товаров и услуг у местных поставщиков. Если вы интересуетесь распродажами и скидками и находитесь в Москве, то вам, скорее всего, совсем не интересно, какие акции на эту тему проводятся в Санкт-Петербурге, если вы не указали этого явно в тексте запроса. В первую очередь в результатах поиска должна появиться информация о распродажах в Москве. Таким образом, современные поисковые машины делят запросы на геозависимые и геонезависимые . Скорее всего, если поисковая система решает, что ваш запрос геозависимый, то она автоматически добавляет к нему признак региона, который пытается определить по информации о вашем интернет провайдере.

      • Время . Поисковым машинам иногда приходится анализировать, когда имели место события, описываемые на странице. Ведь информация постоянно устаревает, а пользователю нужны в первую очередь ссылки на самые последние новости, актуальные прогнозы и анонсы событий, которые еще не завершились или должны наступить в будущем. Понять, что актуальность страницы зависит от времени, и сопоставить ее с моментом выполнения запроса также требует от поисковой машины изрядной доли интеллекта.

      Далее, поисковая машина ищет ближайший по смыслу ключевой запрос в индексе и формирует результаты, сортируя ссылки в порядке убывания их релевантности. Каждому ключевому запросу в индексе соответствует отдельный рейтинг страниц, релевантных ему. Не на каждое сочетание букв и цифр система заводит новый ключевой запрос, а делает это на основе анализа частоты тех или иных пользовательских запросов. Поисковая машина может также перемешивать в результатах поиска рейтинги из разных ключевых запросов, если посчитает, что пользователю нужно именно это.

Общие принципы работы поисковой системы

Нужно понимать, что услуги поиска в интернете – это очень и очень выгодный бизнес. В детали, за счет чего живут такие компании, как Google и Яндекс можно не вдаваться, поскольку основная часть их прибыли – это доходы от контекстной рекламы. А раз поиск в интернете является крайне выгодным делом, то и конкуренция среди таких компаний весьма серьезная. Что определяет конкурентоспособность на рынке интернет поиска? Ответ – качество выдачи поисковой системы. Логично, что чем оно выше, тем больше у системы появляется новых пользователей, и тем ценнее размещаемая на страницах этой самой выдачи контекстная реклама. Разработчики поисковых систем затрачивают большие усилия, направленные на то, чтобы “очистить” результаты своей поисковой выдачи от разного рода информационного мусора, называемого в народе спамом (spam). Более подробно о том, как это делается, будет рассказано в отдельной статье, а здесь я приведу общие принципы поведения поисковой системы, сформулированные в виде выводов по всему вышесказанному.

  1. Поисковая машина в лице своих пауков и краулеров постоянно сканирует интернет на предмет появления новых и обновления существующих страниц, поскольку неактуальная информация ценится ниже.

  2. Поисковая машина периодически обновляет ранжирование ресурсов по их релевантности ключевым запросам, поскольку в индексе постоянно появляются новые страницы. Этот процесс называют обновлением (update) поисковой выдачи.

  3. В силу огромных объемов информации, размещенной во всемирной паутине и ограниченности ресурсов самой поисковой системы, поисковая машина всегда старается загружать только самое (по ее мнению) необходимое. В ее арсенале имеются всевозможные фильтры, которые отсекают многое ненужное уже на этапе индексации или выкидывают спам из индекса по результатам обновления поисковой выдачи.

  4. Современные поисковые системы в ходе анализа запроса стараются учитывать не только текст самого запроса, но и его окружение: контекст и предпочтения пользователя, о которых было сказано ранее, а также время запроса, регион и многое другое.

  5. На релевантность конкретной страницы влияют не только внутренние ее параметры (структура, содержание), но и внешние параметры, такие как ссылки на страницу с других сайтов и поведение пользователя при ее просмотре.

Работа поисковых систем постоянно совершенствуется. Идеальная работа поисковой машины (для человека) возможна только в том случае, если все решения, касающиеся индексации и ранжирования будет принимать комиссия, состоящая из большого числа специалистов всех областей и направлений человеческой деятельности. Поскольку это нереально, то такую комиссию заменяют экспертные системы, эвристические алгоритмы поиска и прочие элементы искусственного интеллекта. Вероятно, работа всех этих подсистем также могла бы давать более адекватные результаты, если бы была возможность обрабатывать абсолютно все данные, имеющиеся в открытом доступе в интернете, но и это практически невозможно. Несовершенный искусственный интеллект и ограниченность ресурсов – две основные причины того, что результаты поисковой выдачи не всегда радуют пользователей, но все это лечится временем. На сегодня, по моему мнению, работа наиболее известных и крупных поисковых систем вполне соответствует потребностям и ожиданиям их пользователей.

В интернете, на различных сайтах пользователю предлагается большой объем разной информации. Для получения необходимых сведений, поиска ответов на вопросы созданы поисковые системы. Услышав это словосочетание, многие думают о Google, «Яндексе». Однако поисковых систем в интернете намного больше.

Что такое поисковая система

Поисковой системой принято считать программное обеспечение, которое состоит из базы данных документов. Пользователям предоставляется специальный интерфейс, который позволяет вводить нужные запросы и получать ссылки с подходящей информацией. На первые позиции в результатах поиска выходят всегда документы, максимально соответствующие тому, что ищет конкретный человек.

Поисковая выдача, которая формируется в соответствии с введенным запросом, обычно содержит разные типы результатов. В ней могут присутствовать интернет-страницы, видео- и аудиофайлы, картинки, pdf-файлы, конкретные товары (если поиск осуществляется по интернет-магазину).

Классификация поисковых систем

Существующие поисковые системы классифицируются на несколько видов. В первую очередь стоит назвать традиционные поисковики. У таких поисковых систем принципы работы ориентированы на поиск информации на огромном количестве существующих сайтов. Поисковые системы еще бывают на отдельных интернет-ресурсах:

  • в интернет-магазинах (для поиска нужных товаров);
  • на форумах и блогах (для поиска сообщений);
  • на информационных сайтах (для поиска статей на нужную тематику или новостей) и т. д.

Поисковые системы еще подразделяют с учетом географического признака. В такой классификации есть 3 группы поисковиков:

  1. Глобальные. Поиск ведется по всему миру. Лидером в этой группе является поисковик Google. Ранее существовали такие поисковые системы, как Inktomi, AltaVista и др.
  2. Региональные. Поиск осуществляется по стране или группе стран, которых объединяет один язык. Региональные поисковики широко распространены. Их пример в России - «Яндекс», Rambler.
  3. Местные. Поиск ведется в конкретном городе. Пример такой поисковой системы - «Томск.ру».

Составляющие элементы поисковиков

В любом поисковике можно выделить 3 составляющих элемента, определяющих принципы работы поисковой системы:

  • робота (индексатора, спайдера, краулера);
  • базу данных;
  • обработчика запросов.

Робот - это специальная программа, предназначение которой заключается в формировании базы данных. В базе данных хранится и сортируется вся собираемая информация. Обработчик запросов, называемый также клиентом, работает с пользовательскими запросами. Он имеет доступ к базе данных. Не всегда клиент располагают на одном компьютере. Обработчик запросов бывает разнесен по нескольким физически не связанным электронно-вычислительным машинам.

Все существующие системы работают по единому принципу. Рассмотрим, к примеру, функционирование традиционных поисковиков, предназначенных для интернета. Функционирование робота схоже с действиями обычного пользователя. Эта программа периодически обходит все сайты, добавляет новые страницы и интернет-ресурсы в базу данных. Данный процесс именуется индексацией.

Когда пользователь в интернете в поисковую строку вводит определенный запрос, работать начинает клиент. Программа обращается к существующей базе данных и по ключевым словам формирует выдачу. Ссылки поисковая система предоставляет пользователю в определенной последовательности. Они сортируются по мере соответствия запросу, т. е. учитывается релевантность.

У каждого поисковика свой способ определения релевантности. Если пользователь отправит конкретный запрос в разные системы, то он получит не совсем одинаковые выдачи. Алгоритм определения релевантности хранится в секрете.

Подробнее о релевантности

Если говорить простыми словами, то релевантностью называется соответствие введенного в поиск слова или сочетания слов конкретным ссылкам в выдаче. На позиции документов в списке влияет несколько нюансов:

  1. Наличие слов, введенных в поиск, в документах. Этот нюанс очевиден. Если в документе есть слова из введенного пользователем запроса, то это значит, что данный документ соответствует условиям поиска.
  2. Частота вхождения слов. Чем чаще употребляются ключевые слова в документе, тем он будет выше в списке выдачи. Однако не все так просто. Слишком частое употребление слов может быть признаком некачественного контента для поисковой машины.

Алгоритм определения релевантности достаточно сложен. Несколько лет назад в выдачу могли попадать ссылки, содержащие нужные ключевые слова, но при этом не соответствующие им по содержанию. В настоящее время принципы работы поисковых систем усложнены. Теперь роботы могут анализировать полностью весь текст. В работу поисковиков заложен учет огромного количества различных факторов. Благодаря этому выдача формируется из наиболее качественных, релевантных ссылок.

Как правильно формулировать запросы

Еще в школе нас учили правильно задавать вопросы. От этого зависит то, какие ответы мы будем получать. Однако это правило не нужно соблюдать при использовании поисковых систем. Для современных поисковиков не играет никакой роли то, в каком числе или падеже пишет человек свой запрос. В любом случае выдача будет включать в себя одинаковые результаты.

Четкая формулировка вопроса поисковым системам не нужна. Пользователю нужно только правильно подбирать ключевые слова. Рассмотрим пример. Нам нужно найти текст песни «День без тебя», которую исполняет известная женская поп-группа «Виа-Гра». При обращении в поисковую систему необязательно называть группу, указывать, что это песня. Достаточно написать «день без тебя текст». Соблюдать регистры, знаки препинания не требуется. Эти нюансы не учитываются поисковиками.

Ведущей поисковой системой в мире является Google. Она была основана в 1998 году. Система очень популярна, что подтверждается аналитическими сведениями. Около 70 % запросов, поступающих в интернет, обрабатывает именно Google. База поисковика огромна. Проиндексировано более 60 триллионов различных документов. Google привлекает пользователей простым интерфейсом. На главной странице расположены логотип и строка поиска. Эта особенность позволяет назвать Google одним из самых минималистичных поисковиков.

На втором месте в рейтинге популярных поисковых систем находится Bing. Она появилась в том же году, что и Google. Создателем этого поисковика является известная международная корпорация Microsoft. Более низкие позиции в рейтинге занимают Baidu, Yahoo!, AOL, Excite, Ask.

Что популярно в России

Среди поисковых систем в России наибольшей популярностью пользуется «Яндекс». Этот сервис появился в 1997 году. Первое время им занималась российская компания CompTek International. Немного позднее появилась компания «Яндекс», которая продолжила заниматься поисковой системой. Поисковик за годы существования завоевал огромную популярность. В нем возможен поиск на нескольких языках - на русском, белорусском, украинском, татарском, казахском, английском, немецком, французском, турецком.

Из статистических сведений известно, что «Яндекс» интересен более 50% пользователей рунета. Более 40 % людей предпочитают Google. Примерно 3% пользователей остановили свой выбор на Mail.ru - русскоязычном интернет-портале.

Защищенные поисковики

Обычные поисковые системы, являющиеся привычными для нас, не совсем подходят детям. Юные пользователи интернета могут случайно найти какие-нибудь материалы для взрослых, информацию, способную навредить психике. По этой причине были созданы специальные защищенные поисковые системы. В их базах хранится только безопасный контент для детей.

Пример одного такого поисковика - «Спутник.Дети». Этот сервис является довольно молодым. Его создала компания «Ростелеком» в 2014 году. Главная страница поисковика ярко и интересно оформлена. На ней представлен широкий перечень отечественных и зарубежных мультфильмов для детей разных возрастов. Дополнительно на главной странице размещены познавательные ссылки, относящиеся к нескольким рубрикам - «Спорт», «Хочу все знать», «Сделай сам», «Игры», «Технологии», «Школьное», «Природа».

Другой пример защищенной детской поисковой системы - Agakids.ru. Это абсолютно безопасный ресурс. Как работает поисковая система? Робот настроен таким образом, что он обходит только те сайты, которые относятся к детской тематике или являются полезными для родителей. В базу поисковой машины попадают ресурсы с мультфильмами, книгами, учебной литературой, играми, раскрасками. Родители, используя Agakids.ru, могут для себя находить сайты по воспитанию, здоровью детей.

В заключение стоит отметить, что поисковики - это сложные системы. Перед ними стоит множество проблем - проблемы спама, определения релевантности документов, отсеивания некачественного контента, анализа документов, не содержащих текстовой информации. По этой причине в работу поисковых систем интернета разработчики внедряют новые подходы, алгоритмы, являющиеся коммерческой тайной.

Многие хотят оказаться в ТОПе, но далеко не все понимают, как работают поисковые системы. А к рубежу 2017 года требования к сайтам со стороны поисковых систем ещё более ужесточились (более подробнее в статье ). Поэтому, чтобы постоянно быть в топе, для начала нужно, как минимум разобраться как работают поисковые алгоритмы.

Дочитав эту статью до конца, Вы разберётесь в том, на каких принципах строится работа Яндекс и Google, узнаете чуть больше о mail, rambler и bing. При этом мы не будем касаться факторов ранжирования сайтов, т.к. это очень объёмный материал, требующий отдельной публикации.

Ну, или если хотите цель, назначение или даже миссия поисковой системы это дать максимально точный ответ пользователю на его запрос в виде перечня ссылок на различные ресурсы.

Для того чтобы сформировать качественный список из сайтов, поисковая система создаёт базу данных. То есть, если Ваш сайт или новая страница сайта не проиндексирован Яндексом или Гуглом, значит их не будет в результатах поиска. Базу данных из сайтов формируют поисковые роботы, которые сообщаются информацию о сайтах своему «боссу» , а тот заносит данные в реестр. Например, если вы зарегистрировали свой сайт в или , там можно найти информацию о том, какое количество страниц Вашего сайта проиндексировала поисковая система.

Далее, весь реестр данных из страниц многочисленных сайтов ранжируется по определённым параметрам: регион, релевантность запросу, популярность ресурса, качества контента и так далее. Как я уже и сказал, весь список факторов ранжирования мы разберём в отдельной публикации. Основной задачей при продвижения сайта, становится как раз влияние на эти факторы, с целью поднятия сайта в ТОП.

Особенности и характеристики поисковых систем в 2018

Все мы видели рекламу Google о том, как поисковая система вступает в неравную схватку с бабушкой на предмет поиска ближайшей аптеки. О чём это говорит? О том, что поисковые системы обучаются и в скором времени полностью перестанут работать с ключевыми словами и будут работать только со смыслами. Т.к. это и является их основной задачей не выдать произвольный список сайтов, а помочь пользователю в поиске места, товара или услуги.

В нашей стране доля голосового поиска ещё очень незначительно, но в США она занимает около 50% мобильного трафика. А значит эта тенденция скоро коснётся России. Соответственно, вырастет количество информационных запросов (как, где, куда ) и запросов, которые невозможно предсказать, т.к. они будут не шаблонными и продиктованы ситуацией, в которой находится человек. Например, он стоит на перекрёстке и запрашивает, куда мне повернуть, чтобы найти кафе, где есть бизнес-лачни стоимостью до 300 рублей. Это Google.

Что касается Яндекса, который так же в конце 2016 представили . Это алгоритм, который так же будет работать прежде всего со смыслами.

Какая поисковая система лучше или чем отличается Яндекс от Google?

На своём личном опыте могу сказать, что обе поисковые системы хорошие по-своему. Отличие разумеется в том, что Яндекс — это российский поисковик, а Google это крупнейшая в мире поисковая система. Разумеется нас не интересует внешнее отличие сайтов этих поисковых систем и сервисов, которые они предоставляют, а то, как они формируют результаты поисковой выдачи, так как они очень сильно разнятся.

В Яндексе в большей степени уделено внимание региональному поиску. То есть, если Вы находитесь во Владивостоке и вводите запрос без указания города или региона, например «окна», в первую очередь Яндекс покажет сайты тех компаний, который находятся во Владивостоке и каким-то образом связаны с окнами.

Для Google в большей степени важно популярность, цитируемость ресурса (не только ссылки на Ваш сайт), на основе этого он делает вывод, является ли Ваш сайт полезным.

Что касается других поисковых систем, то mail.ru является оболочкой поисковой выдачи Гугла, т.е. сам mail.ru ничего не анализирует, а просто показывает то, что показал бы Гугл. Rambler.ru по тому же принципу является оболочкой Яндекса.

Поисковая система — это база данных по определенной информации в интернете. Многие пользователи считают, что как только они вводят запрос в поисковую систему, тут же начинается сканирование всего интернета, но это совсем не так. Сканирование интернета происходит постоянно, многими программами, данные о сайтах заносятся в базу данных, где по определенным критериям все сайты и все их страницы распределяются в различного рода списки и базы данных. То есть это своего рода картотека данных, и поиск происходит не по интернету, а по этой картотеке.

Google — самая популярная поисковая система в мире.

Кроме поисковой системы, компания Google предлагает множество дополнительных сервисов, программ и аппаратного обеспечения, среди которых почтовый сервис , браузер Google Chrome , крупнейшая видеотека youtube и многие другие проекты. Компания Google уверено скупает многие проекты приносящие крупную прибыль. Большинство сервисов направлены не на прямого пользователя, а на заработок в интернете и интегрирована с уклоном на интересы европейских и американских пользователей.

Mail — поисковая система, популярная в основном из-за почтового сервиса.

Имеется множество дополнительных сервисов, ключевым из которых является почта Mail , на данный момент компании Mail принадлежит социальная сеть Одноклассники , собственная сеть «Мой мир», сервис Деньги-mail, множество онлайн игр, три практически одинаковых браузера с различными названиями. Во всех приложениях и сервисах очень много рекламного наполнения. Социальная сеть «ВКонаткте» блокирует прямые переходы в сервисы Mail, агрументируя большим количеством вирусов.

Википедия.

Википедия — поисковая справочная система.

Некоммерческая поисковая система, существующая на частные пожертвования, поэтому не наполняет страницы рекламой. Многоязычный проект, целью которого является создание полной справочной энциклопедии на всех языках мира. У нее нет определенных авторов, заполняется и управляется добровольцами со всех стран мира. Каждый пользователь может как написать, так и отредактировать статью.

Официальная страница — www.wikipedia.org.

Youtube — крупнейшая библиотека видеофайлов.

Видеохостинг с элементами социальной сети, где каждый пользователь может добавить видео. С момента приобретения их компанией Google Ink, отдельная регистрация для ютуба не требуется, достаточно зарегистрироваться в почтовом сервисе Google .

Официальная страница — youtube.com.

Yahoo! — вторая по значимости поисковая система в мире.

Имеются дополнительные сервисы, самым известным из которых является почта Yahoo. В рамках улучшения качества поисковой системы, Yahoo передает данные о пользователях и их запросах в компанию Microsoft. От этих данных формируется представление об интересах пользователей, а так же формируется рынок рекламного наполнения. Поисковая система Yahoo, так же как и , занимается поглощением других компаний, например, Yahoo принадлежат поисковой сервис Altavista и сайт электронной коммерции Alibaba.

Официальная страница — www.yahoo.com.

WDL — цифровая библиотека.

В библиотеке собираются книги предоставляющие культурную ценность в цифровом виде. Основная цель — повышение уровня культурного содержания интернета. Доступ к библиотеке осуществляется бесплатно.

Официальная страница — www.wdl.org/ru/.

Bing — поисковая система от компании Microsoft.

Официальная страница — www.baidu.com.

Поисковые системы России

Рамблер — «проамериканская» поисковая система.

Изначально создавался как медийный интернет-портал. Как и другие многие поисковые системы, имеет сервисы поиска по картинкам, видеофайлы, карты, прогноз погоды, новостной раздел и многое другое. Так же издатели предлагают бесплатный браузер Рамблер-Нихром .

Официальная страница — www.rambler.ru.

Nigma — интеллектуальная поисковая система.

Более удобная поисковая система из-за наличия множества фильтров и настроек. Интерфейс позволяет включать, либо исключать предлагаемые подобные значения в поиске для получения более качественных результатов. Так же, при получении результата поиска позволяет использовать информацию других крупных поисковиков.

Официальная страница — www.nigma.ru.

Aport — каталог товаров онлайн.

В прошлом поисковая система, но впоследсвии того, что разработки и нововведения были прекращены, быстро сдала позиции и . В настоящий момент Апорт является торговой площадкой, на которой представляются товары более 1500 фирм.

Официальная страница — www.aport.ru.

Спутник — национальная поисковая система и интернет-портал.

Создана компанией «Ростелеком». В настоящее время находится в стадии тестирования.

Официальная страница — www.sputnik.ru.

Metabot — развивающаяся поисковая система.

В задачах Metabot стоит создание поисковой системы по всем другим поисковым системам, создавая позиции выдачи результатов с учетом данных всего списка поисковых систем. То есть это поисковая система по поисковым системам.

Официальная страница — www.metabot.ru.

Работа поисковой системы приостановлена.

Официальная страница — www.turtle.ru.

KM — мультипортал.

Изначально сайт являлся мультипорталом с последующим внедрением поисковой системы. Поиск может проводиться как внутри сайта, так и по всем отслеженным сайтам рунета .

Официальная страница — www.km.ru.

Gogo — не работает, перенаправляет на поисковик .

Официальная страница — www.gogo.ru.

Российский мультипортал, не очень популярный, требует доработки. В поисковик включены новости, телевидение, игры, карта.

Официальная страница — www.zoneru.org.

Поисковая система не работает, разработчики предлагают воспользоваться поисковиком .

Мы выпустили новую книгу «Контент-маркетинг в социальных сетях: Как засесть в голову подписчиков и влюбить их в свой бренд».

Интернет - просто охренеть какая огромная штука. И в нем есть все . Общение с друзьями? Вот, пожалуйста - Facebook. Фотоальбом - в Instagram. Купить дачу? У меня уже есть «Веселый фермер». А энциклопедией давно пользовались? Зачем, ведь есть , которые знают все. И сегодня мне бы хотелось отдать должное этим чудо-сервисам. А точнее рассказать вам о том, как работает Яндекс поиск .

Помните Гермиону из саги о Гарри Поттере? Как вы думаете: почему она была такой сверхэрудированной всезнайкой? Правильно, потому что постоянно ходила где-то читала про всякие зелья, изучала разные заклинания, допытывалась до учителей по всем непонятным моментам. В общем, делала все, чтобы расширить свою базу знаний. Точно так же работает Яндекс поисковик. Еще до того, как вы задали ему вопрос, он уже кое-что узнал про вашу тему и сохранил себе в копилочку.

Как формируется поисковая база Яндекса

Пауки всемирной паутины

Знает несколько триллионов урлов. И каждый день он изучает по паре миллиардов из них . Делают это специальные роботы -пауки , краулеры . Они заходят на страницу , анализируют содержимое , делают копию и отправляют на сервер . А затем уходят по ссылкам на другие страницы. Так происходит знакомство поисковика с сайтом. Далее следует этап индексикации.

Если произвести нехитрые математические расчеты , то можно выявить , что пауки Яндекса обойдут все известные страницы приблизительно за 2 года . Но это будет неверно , так как количество урлов постоянно увеличивается
=> работа по созданию поисковой базы бесконечна.

Индексикация

Определение сайта - это процесс добавления всей важной информации о странице в базу поисковика . То есть определяется язык , формируются данные об отдельных словах и вытаскиваются все ссылки исходящие на другие страницы . Кроме того у Yandex есть специальный инструмент , который называется логи Яндекса . Он изучает, как пользователь ведет себя в выдаче: на что кликает, а на что не кликает . Опираясь на все полученные параметры и задается поисковый индекс сайта .

Логи Яндекса широко применяются не только при индексикации , но и при ранжировании.

Составление поисковой базы

Поисковые индексы , полученные в ходе предыдущего этапа, отправляются в поисковую базу . У Яндекс поиска она функционирует на программной платформе мапредьюс . Здесь данные превращаются файлы и «остаются жить».

Суммарный объем данных YT приблизительно 50 петабайт = 51 200ТБ.

У поисковой базы данных есть еженедельное обновление - апдейт. Это тот момент, когда поисковый робот Яндекса, накачав определенное количество файлов и рассчитав для них все необходимые характеристики, принимает решение, что можно добавить эту информацию в поиск.

Согласно статистическим данным Игоря Ашманова - специалиста по поисковым системам в интернете, полнота поисковой базы у Яндекса (красные на графике) в несколько раз выше , чем у их ближайшего конкурента Google (черные) .

Пока индекс - времязатратный и протекает комплексно сразу для большого количества данных . Поэтому у Яндекса есть специальный быстрый контур , который может добавлять и доносить до пользователя отдельные , срочные файлы . Ну , например , новости в реальном времени .

Как работает сам Яндекс поиск

Любой запрос в поисковой системе Яндекс проходит по следующей схеме.

Балансеры - это машины, которые агрегируют выдачу.
Построение выдачи формируется из результатов трех средних метапоисков . Поясню , что это значит . В выдаче вы видите результаты запроса по страницам , картинкам и видео . Происходит это потому, что ваш запрос проходит по трем разным индексам . И по ним он спускается в самую -самую глубь поисковой базы , разделенную на несколько тысяч кусков . Этот процесс обозначается, как поисковая кластеризация.

Работа поискового кластера состоит из функционирования более миллиона экземпляров различных программ . Они выполняют всяческого рода задачи , у них разные системные требования и всем им нужно где -то «жить ». Поэтому поисковая кластеризация занимает еще и огроменное количество компьютерного железного хостинга .

Для хранения и передачи всех программ и данных к ним Яндекс использует внутренний торрент -трекер . Число раздач на нем больше, чем на крупнейшем в мире пиратском трекере The Pirate Bay .

Вернемся к результатам выдачи .
В поисковую выдачу попадают наиболее релевантные , соответствующие поисковому запросу документы . Дальше происходит ранжирование - упорядочивание результатов поиска . Проходит оно с помощью специальной формулы . Чтобы порядок результатов каждый раз был качественным , актуальным и максимально релевантным разработчики Яндекса придумали одну очень крутую штуку .

Метод машинного обучения, с помощью которого строится формула ранжирования Яндекс . Он постоянно модернизирует эту схему: выстраивает комбинации , добавляет и убирает факторы , выставляет коэффициенты . Другая важная характеристика этого метода - возможность индивидуальной настройки формулы ранжирования для узкопрофильных категорий запросов . То естьдля отдельных запросов, например, про кино или компьютерные игры, можно улучшить качество поиска. При этом ранжирование по остальным классам запросов не ухудшится.

Первая формула ранжирования Яндекса составляла примерно 10 байт. На сегодняшний момент - около 100 мегабайт.

Задача поисковика не просто находить иголки в сеновалах, но и определять самые острые из них . И самое удивительное то, как работает Яндекс поиск. Результат выдается за доли секунд. Десять первых наиболее релевантных запросов - как правило, это все, что нужно пользователю . Если в этих запросах мы не находим то, что искали, то мы пробуем или другой запрос, или меняем поисковик. Но рано или поздно: «Найдется все!»

Скриншоты взяты из лекции Петра Попова.

icon by Arthur Shlain



Рекомендуем почитать

Наверх