Индексирование сайта

Индексирование сайта — общее название процесса включения данных о страницах сайта в базу данных поисковой системы. Это название происходит от термина «индекс», которым обозначается наиболее важная часть поисковой базы. Только после завершения процесса индексирования любой документ становится доступным для поиска и может отображаться на страницах результатов поиска (SERP).

Стадии индексирования

Индексирование проходит в несколько стадий — фактически оно распадается на ряд независимых процессов. В поисковой системе процессы обработки данных идут непрерывно, параллельно обрабатываются страницы разных сайтов, поэтому стадии обработки можно выделить не для сайта в целом, а только для отдельно взятой страницы. Точная последовательность и алгоритмы обработки у каждой поисковой системы свои, но основные операции известны, и у всех поисковиков в целом одинаковы.

Сканирование страниц

Сканирование страниц осуществляют серверы сканирования, действующие по расписанию. На них запускаются процессы, называемые поисковыми роботами или ботами. Задача робота — послать HTTP-запрос по заданной ссылке, получить документ и сохранить его. Также сохраняется HTTP-заголовок ответа для обработки исключительных ситуаций (ошибки сервера, документ недоступен, документ удален, документ перемещен). Сохраненные роботами страницы становятся в очередь на обработку.

Разбор страниц

Каждая просканированная страница имеет свой уникальный идентификатор в поисковой базе. Когда страница сканировуется в первый раз и попадает в обработку, ей присваивается идентификатор и ставится в соответствие URI страницы.

Разбор страницы делается так же, как это делает браузер. Страница разбирается на составные части в соответствии со структурой документа HTML. Из каждой части документа извлекаются данные, имеющие значение для поиска. На этой стадии выделяются заголовок страницы (<title>...</title>), мета-описание (<meta name="description" content="...">), извлекаются ссылки, тексты ссылок (анкоры), блоки текста, заголовки текста, графические элементы. Также выбираются альтернативные тексты к графике (атрибуты alt) и дополнительная информация об элементах HTML (атрибуты title).

Учет обновлений

Ведется проверка изменений во всех составных частях страницы. Изменения в текстах, новые фрагменты текста, заголовки и другие элементы сохраняются для последующей корректировки поисковой базы. Сама база поиска при этом не затрагивается, её обновления проводятся периодически, после накопления данных.

Выборка ссылок

Ссылки, найденные в ходе разбора страницы, сохраняются и обрабатываются отдельно. Все внутренние ссылки (ведущие на другие страницы в том же домене) сверяются с существующим списком ссылок для этого домена. Если найдены новые ссылки, которых еще нет в списке, они ставятся в очередь на сканирование. Внешние ссылки (на другие домены) также сверяются со списками для соответствующих доменов, если найдены ссылки на еще не известные системе документы, они также ставятся в очередь на сканирование. Именно так поисковая система постоянно находит новые страницы.

Также проводится учет новых ссылок (внешних и внутренних) на уже известные страницы. Эти данные сохраняются для дальнейшего пополнения списков ссылок.

Включение в поисковую базу

Включение новых страниц в поисковую базу проводится не сразу, а периодически. Обработанные данные сканирования страниц подготавливаются и сохраняются отдельно, а пополнение и изменение базы проходит по расписанию. Такой подход продиктован необходимостью корректировки множества связанных данных для каждой новой или измененной страницы, которые в дальнейшем будут влиять на ранжирование этой страницы и других, связанных с ней. Такие множественные изменения имеет смысл проводить с достаточно большими объемами данных, поскольку во время апдейта поисковой базы выдача поисковика может быть существенно искажена.

Приоритеты

Поисковые системы никогда не смогли бы оперативно предоставлять свежие и актуальные результаты поиска, если бы не выстраивали целую систему приоритетов. Всем известно, что новый сайт, о котором поисковику только что сообщили через форму добавления AddURL, вряд ли появится в выдаче по какому-нибудь запросу раньше, чем через неделю. Но на многих сайтах со стажем размещенная информация может появиться в поиске уже через час.

индексирование-сайта.txt · создано: 2010/08/02 17:15 — Zanuda · Последние изменения: 2012/09/23 03:39 — Spinne
Наверх
Driven by DokuWiki