Из чего состоит и как работает поисковая система Яндекс и Google?
В этой статье я опишу основные элементы поисковой системы, покажу, как они связаны, и затрону немного истории возникновения поисковиков. Но вначале разберем, что такое поисковая система и для чего она нужна?
Поисковая система – это специальный сервис для быстрого поиска информации в Интернете. Пользователь задает в поисковик запрос, в котором формулирует, что хочет найти. Поисковая система в ответ выдает результаты поиска – ссылки на страницы сайтов, где может находиться интересующая пользователя информация.
Давайте разберемся, из чего состоит поисковая система и как она работает. Нужно отметить, что принципы действия у любого поисковика схожи: Яндекс, Google и другие поисковики работают по аналогичным алгоритмам, которые отличаются нюансами.
История развития поисковиков: не путайте Wandex и Yandex!
Начнем с истории: первый в мире поисковик в WWW появился в 1993 году, и это был Wandex. Не путайте с Яндексом. После него появились Aliweb, Webcrawler, Lycos, Altavista, Рамблер, Google и только потом Яндекс.
Первым именно российским поисковиком был Рамблер. Сейчас Рамблер все еще существует, но для поиска использует движок Яндекса. На его долю приходится около 1% от всех поисковых запросов.
Самой популярной поисковой системой в России на момент подготовки статьи является Яндекс, который используют для поиска информации около 61% россиян по данным РБК. На втором месте по количеству пользователей в России идет Google – около 26%, но в последнее время процент пользователей Google растет. Обе поисковые системы были запущены в 1997 году, но в Россию Google пришел гораздо позже (официально – в 2006 году).
Перейдем к вопросу, как устроена и как работает поисковая система
Поисковая система состоит из трех основных элементов:
1. Роботы-пауки (агенты, роботы, обходящие все интернет пространство, и сканирующие сайты)
У поисковой системы существует множество роботов-агентов, каждый из них выполняет свою функцию:
- основной работ, сканирующий сайты;
- робот, сканирующий картинки;
- робот, сканирующий видео;
- робот мобильных сервисов;
- быстроробот выполняет функцию сбора свежей информации и новостей для индексации;
- другие роботы.
У каждого робота есть список адресов, которые он должен обойти. Этот список автоматически увеличивается, если робот находит новую ссылку и адрес сайта. Робот проверяет тип найденного документа, кодировку и язык и отправляет эти данные на дальнейшую обработку.
2. Индекс (база документов и дополнительных параметров в обработанном виде)
Индекс – это хранилище поисковой системы, где вся информация находится в обработанном и упорядоченном виде. Например, документы хранятся в очищенном от html-разметки виде, в индексе имеются данные о местоположении различных слов в документе и другая информация. Индекс обновляется постоянно.
В ряде поисковых систем имеются выраженные апдейты. В этом случае полноценное обновление поискового индекса, на основе которого формируются результаты поиска, происходит не постоянно, а через некоторое время. Апдейт – это момент обновления поисковой системы, в который результаты поиска по многим запросам серьезно меняются.
3. Поисковый алгоритм (механизм, который позволяет формировать выдачу)
Когда в поисковую систему поступает запрос, алгоритмы поисковой системы обрабатывают его. В обработанном виде он поступает дальше в систему.
Если запрос популярный, результаты поиска по нему могут кешироваться (сохраняться в поисковой системе) и в дальнейшем при поступлении такого же запроса результаты поиска поднимаются из кеша. Если запрос уникальный, то поисковые алгоритмы на основе имеющихся в них формул формируют ответ на запрос из индекса поисковой системы.
Формула, по которой формируются результаты поиска, может отличаться в зависимости от запроса, его типа (коммерческий, информационный, навигационный и т.д.), географии (формула для региональных запросов может быть проще, чем для московского региона).
Мы рассмотрели упрощенную модель поисковой системы. Реальные поисковые системы намного сложнее и включают в себя механизмы борьбы по спамом, колдунщики и множество других вещей.
Что такое машинное обучение?
Поисковая система Яндекс создает формулы для ранжирования сайтов на основе машинного обучения.
Очень упрощенно данную систему можно представить так:
- В программу машинного обучения загружаются факторы, по которым осуществляется ранжирование документов, и отранжированные результаты поиска по множеству запросов. Программа ищет закономерности между результатами поиска и факторами «хороших» и «плохих» страниц. Найденные закономерности включаются в формулу ранжирования. Например, если на всех «хороших» сайтах фон был синим, а на всех «плохих» – желтым, то программа может заложить в формулу повышение позиций страниц с синим фоном и занижение позиций страниц с желтым фоном.
- Полученные формулы тестируются, и разработчики по определенным параметрам определяют, улучшилось качество поиска по новым формулам или нет.
- Если качество поиска повысилось – формулы загружаются в основной поиск и начинают обрабатывать пользовательские запросы.
Резюме: как работает поисковик?
Как мы видим, даже упрощенная модель работы поисковой системы достаточно сложна и состоит из множества систем. Реальные же поисковые системы намного сложнее, поэтому процесс продвижения сайтов представляется не только сложным, но и крайне интересным.
В данный момент при ранжировании сайтов поисковая система Google учитывает более 200 факторов, а поисковик Яндекс - более 800 факторов. Все они подразделяются на группы: технические, доменные, текстовые, ссылочные, региональные, поведенческие, коммерческие, юзабилити и ряд других.
Читайте также:
Отправить комментарий
В данной статье рассмотрим, как поисковые системы учитывают внешние ссылки, какие ссылки приносят пользу сайту и как правильно развивать ссылочный ...
Ссылки с других сайтов – один из важнейших факторов для поисковых систем, особенно для Google. Если говорить о Яндексе, то влияние ссылочных ...