1 Звезда2 Звезды3 Звезды4 Звезды5 Звезд (1 оценок, среднее: 5,00 из 5)
Загрузка...

Процесс индексирования сайтов.

Screenshot_126 Процесс индексирования сайтов.

Индексация — это процесс, во время которого поисковые роботы посещают
сайты, собирая с их страниц разнообразную информацию и занося ее в
специальные базы данных. Потом эти данные обрабатываются, и строится
индекс — выжимка из документов. Именно по индексу поисковая система
ищет и выдает ссылки на сайты, исходя из запросов пользователей.
Рассмотрим процесс индексирования на примере поисковой системы Яндекс.
В поисковой системе есть 2 типа роботов: быстрый (быстро-робот) и основной.
Задача основного робота — индексация всего контента, а быстрого —
занесение в базы данных самой свежей информации. Планировщик
поискового робота составляет маршруты посещения и передает его «пауку»,
который ходит по выбранным страницам и выкачивает из них информацию.
Если во время индексации в документах обнаруживаются новые ссылки, они
добавляются в общий список.
Поисковые системы как устроены поисковые системы
Документы в индекс попадают следующими способами: автоматически, когда
поисковый робот сам переходит по внешним и внутренним ссылкам, либо
если владелец сайта сам добавил URL через специальную форму или через
установленную на сайте Яндекс.Метрику. Этот сервис передает URL страниц
на индексацию Яндексу. При необходимости в интерфейсе Метрики можно
отключить данную опцию.
Скорость индексации и обновления страниц
В идеале, как только создана новая страница, она должна быть сразу же
проиндексирована. Однако большие объемы информации затрудняют
индексацию новых страниц и обновление старых. Роботы поисковых систем
постоянно обновляют базу данных, но чтобы она была доступна пользователям,
ее необходимо переносить на «базовый поиск». База данных переносится туда
не полностью. Исключаются зеркала сайтов, страницы, содержащие поисковый
спам и другие ненужные, по мнению поисковика, документы.
Однако для некоторых типов информации такая скорость обновления
неприемлема. Примером может служить индексирование новостных
сайтов. Размещенные новости должны быть доступны в поисковой системе
практически сразу после их добавления. Для ускорения индексации часто
обновляемых страниц и существует специальный «быстрый робот», который
посещает новостные сайты несколько раз в день.

Добавить комментарий