Процессы поисковых систем: как проходит процесс индексации

Процессы поисковых систем: как проходит процесс индексации

15 июня 0 Автор Игорь Серов

Процессы поисковых систем — индексация

Вся работа поисковых систем направлена на создание базы данных поисковой выдачи, которая удовлетворить пользователя этого поисковика. Основные этапы работы поисковика это процесс посещения поисковыми роботами сайта, сканирование сайта и его страниц, занесение информации  в юазу данных, обработка информации и выборочное занесение отдельных статей в свой поисковую выдачу (индекс). Из обработанных документов делаются выжимки, которые ранжируются по сделанному поисковому запросу и выдают списки ссылок, пользователям.

Как проходит процесс индексации

Процесс индексации рассмотрим на примере ПС Яндекс.

Процессы поисковых систем

Поисковая система Яндекс — Расширенный поиск

В Яндекс работают два типа роботов, основной и быстрый. Основной робот  индексирует весь контент, быстрый робот заносит в свои базы данных поисковиков свежую информацию. Маршруты, по которым поисковик «ходит» по сайтам, создают планировщики поискового робота. В список планировщика заносятся все рабочие ссылки для просмотра, которые появляются на сайтах при индексации.

Первое посещения поискового робота («паука») ознакомительное. Робот изучает соответствие сайта требованиям Яндекс, и если эти требования выполнены, заносит сайт в базу. В следующие посещения робот обновляет занесенную информацию.

Встает логичный вопрос, как поисковая система узнает о существовании вашего сайта и его страниц.

Как документы попадают в индекс Яндекс

Документы и страницы сайта попадают в индекс Яндекс двумя способами.

  1. Автоматически иначе по ссылкам. Поисковик переходит на сайт и его страницы по внешним ссылкам с других сайтов и внутренним ссылкам самого сайта.
  2. Вручную. Владелец сайта или его администратор, добавляет URL сайта через форму добавления сайта (webmaster.yandex.ru/addurl.xml), форму добавления блога (blogs.yandex.ru/add.xml), через Яндекс. Метрику(metrika.yandex.ru/ ). Все эти сервисы передают ссылки на индексацию Яндекс.

 Скорость индексации страниц сайта

К сожалению, вновь созданная страница попадает в индекс (поисковую выдачу), не сразу. Связано это с большим объемом информации, с предварительной обработкой информации и ее фильтрации. При фильтрации поисковиками информации удаляются

  • зеркала сайта,
  • закрытые от индексации страницы,
  • поисковый спам ,
  • дубли страниц,
  • и т.д.

Вся фильтрация страниц проходит по правилам поисковых систем. Глобальное обновление базы поисковых систем, называется апдейты поисковой выдачи. Частота обновлений поисковой выдачи 9-10 дней, но точного расписания нет.

Обновление базы поисковых систем раз в неделю и реже, не подходит для быстроменяющихся сайтов, например, новостных сайтов. Для увеличения срока индексации страниц сайта созданы быстрые поисковые роботы. Быстрые боты, посещают новостные сайты по нескольку раз в сутки.

Посещение быстрого робота можно увидеть в поисковой выдаче. Рядом с URL появляется время посещения. Это посещение быстрого робота.

Фильтрация поисковиками информации

В теории, поисковые системы заинтересованы в большем количестве полезной информации и стараются индексировать всю информацию сканируемую с сайта. Однако в алгоритмах поисковых систем предусмотрены ограничения или фильтры, на некоторую информацию для вхождения в индекс. То есть, всякая страница может попасть в поисковую базу, но не каждая страница попадет в поисковую выдачу.

Если мы посмотрим в веб мастере Яндекс, страницы любого сайта, то увидим, что количество страниц в поиске отличается от количества страниц в выдаче (индеске). Часто эта разница существенна.

яндекс-выдача

Загруженные страницы и страницы в выдаче ПС Яндекс

Очевидно, что Яндекс не пропускает страницы, которые по его «мнению», не интересны пользователю. Например, в выдачу не попадают дубли страниц, причем, Яндекс, считает уникальной последнюю дублированную страницу. Именно, поэтому важно бороться с дублями страниц на сайте.

Стоит отметить, что кроме информационных фильтров у поисковиков есть более серьезные наказания сайтов, это санкционные фильтры. Попадание под них, выбивает из индекса большинство страниц сайта.

Как руководить индексацией страниц

Но хозяин сайта не является «бессловесной» игрушкой в общении с поисковиками. С поисковиками можно общаться через специальный файл  robots.txt. Это текстовой файл, который размещается в корневой папке сайта.

Robots.txt

Создается robots.txt по особым правилам, в которых вы сообщаете поисковику, какие страницы индексировать, какие не вносить в индекс. Ограничений в объеме этого файла нет, правил для формирования правил индексации масса. Так что владелей сайта, вполне может управлять индексацией сайта через файл robots.txt. Правда ускорить индексацию он не может.

Noindex, nofollow

Второй инструмент «общения» с поисковиками, это специальные теги, и атрибуты к ним. Самые известные это атрибуты nofollow и noindex, закрывающие, соответственно, ссылки и текст от индексации. Nofollow закрывает ссылки (для Google) и noindex закрывает текст (для Яндекс).

Какие типы документов индексируют поисковики

На сегодня индексируются следующие типы документов.

  • Документы MS Office (DOC/DOCX, XLS/XLSX, PPT/PPTX);
  • PDF, Flash (Adobe Sys.);
  • Документы Open Office (ODS, ODP, ODT, ODG).
  • TXT, RTF.

Примечание: В документах PDF индексируется только тексты. Во всех flash-документах индексируется текст, размещенный в определенных блоках. Документы объемнее 10 Мб совсем не индексируются.

Типы роботов поисковых систем

Процессы поисковых систем основаны на работе четырех типов основных поисковых роботов:

  1. Основной индексирующий робот;
  2. Робот, индексирующий изображения;
  3. Робот, изучающий зеркала сайта;
  4. Робот, контролирующий работоспособность страниц сайта и сайта в целом.

Вы можете контролировать, вернее, быть в курсе, какой робот зашел к вам на сайт. Для этого есть специальные лог-файлы посещений. Доступны эти файлы в административной панели сервера (хостинга) или по FTP. Например,

  •  Основной индексирующий робот Яндекс:  YandexBot/3.0; +http://yandex.com/bots;
  • Бот Mail: Mail.RU_Bot/2.0; +http://go.mail.ru/help/robots.
  • В журнале посещений, вы увидите боты в таком обозначении: «Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm) – это бот Bing.

Кроме четырех перечисленных , выше, типов роботов, есть и другие индексирующие роботы:

  • Индексирующие видео и иконки (пиктограммы) сайтов;
  • Робот, контролирующий доступность (работоспособность) сайтов;
  • Индексатор «быстрой» информации, на новостных площадках Яндекс. Новостей и т.п.

Важно понимать, что результат внесенных изменений на сайте будет виден не сразу, а через 10-14 дней.

На этом все! Эта небольшая статья, не может охватить все детали, и процессы поисковых систем требует более глубокого изучения.

©SeoJus.ru

Статьи сайта по теме

  • Записи не найдены
(Всего просмотров 95)

Статьи по теме