04 Окт Как работает поисковая система
Основной алгоритм того, как ищут поисковые системы нужные нам запросы на сайтах — это в первую очередь отлаженная система со сбором текстовых и графических данных с сайтов и поиском по ним нужных данных по трем осям: x y z внутри html документа. У каждого поисковика свои методики как по сбору, так и по выделению приоритета в дальнейшем построении выборки, которую в конечном итоге и видим мы.
Путем различных экспериментов в течении последних 10 лет моей работы, поисковики (пс) часто меняли и меняют в лучшую сторону свои алгоритмы по ранжированию сайтов в их списке. Например если в 2001 году бывало достаточно выделить на нужной странице тот или иной запрос и он мог улучшиться в своих позициях относительно своего запроса, то сейчас все обстоит совершенно по другому. Нынешние поисковые системы в основном оценивают сайты и страницы по следующим критериям:
1)Наличие ключевых или связанных с ним слов в следующих кодах документа:
- Title
- h1,2,3,4,5,6
- p
- em
- ul li
2) Объем документа, объем полезного контента, объем и качество связанных фраз
3) Уникальность документа, уникальность контента и графики,
4) Расположение ключевых слов на странице
5) Грамматика, оформление текста
6) Серверные характеристики:
- Отсутствие ошибок
- Правильный код ответа
- Высокий аптайм сервера и время отклика страницы
- Использование 404-ошибки для несуществующих страниц
- 1шаговые перенаправления
- Географическая зона сервера
7) Адресные характеристики: наличие ключевых слов в названии домена, страницы
8) Возраст сайта: возраст проиндексированных страниц, динамика появления новых страниц, возраст контента
9) Перелинковка: наличие ссылок в текстах документа облегчающих нахождение пользователя на сайте и его переходы по страницам
10) Внешние факторы:
- возраст ссылок
- количество ссылок
- оригинальность текстов ссылок и их естественность
- рейтинг домена с ссылками
- возраст площадок с ссылками
- трафик сайтов на которых находятся ссылки
- количество кликов
- и все вышеперечисленное до 10 пункта на площадке с размещенной ссылкой
11) Поведенческие факторы: - удовлетворенность пользователя
- процент отказов
- глубина просмотров
- наличие счетчиков
Это основные параметры по которым сейчас ПС определяют релевантность страниц. Хотите узнать как манипулировать этими параметрами для того, чтобы быть выше по нужным позициям? Возьмите урок.
Как работают алгоритмы поисковой системы
Если представить работу поисковой системы (Google, Yandex и т.д.) в виде формулы, то это будет выглядеть так:
Поисковая система = Робот (Краулер) + Индекс + Алгоритм
А теперь подробно разберем каждый компонент.
Три основных этапа работы поисковой системы
1. Сканирование (Обход) Интернета (Crawling)
Поисковая система должна сначала узнать о существовании всех страниц в интернете. Для этого у нее есть специальные программы — роботы или краулеры (от англ. «to crawl» — ползать).
- Как это работает? Робот постоянно «путешествует» по интернету, переходя по ссылкам с одной страницы на другую, как обычный пользователь.
- Что он делает? Он скачивает HTML-код каждой посещенной страницы.
- С чего он начинает? У него есть стартовый список известных популярных сайтов и веб-адресов (URL), которые были добавлены вручную владельцами. От этих «семян» он продолжает свой путь по ссылкам.
- Это непрерывный процесс. Роботы постоянно обходят сайты снова и снова, чтобы обнаружить новые страницы и обновить информацию о старых.
2. Индексирование (Indexing)
Скачать код страницы — это только полдела. Теперь нужно понять, о чем эта страница, и保存ить эту информацию в гигантской, хорошо организованной базе данных. Эта база данных называется индекс.
Представьте себе индекс в конце большой книги. Вместо того чтобы перечитывать всю книгу, чтобы найти упоминание о «квантовой физике», вы просто смотрите в индекс и видите номера страниц.
- Как это работает? Поисковая система анализирует содержимое скачанных страниц:
- Текст: Извлекает весь текстовый контент (заголовки, абзацы, списки).
- Ключевые слова: Определяет, какие слова и фразы являются основными для этой страницы.
- Мета-теги: Анализирует служебную информацию (title, description), которую разработчик добавляет в код.
- Атрибуты: Считывает альтернативный текст у изображений (
alt
), ссылки и другую информацию. - Поведенческие факторы: Фиксирует, как пользователи взаимодействуют с сайтом в результатах поиска (кликают ли на него, как долго на нем находятся).
- Другие факторы: Учитывает скорость загрузки сайта, его адаптивность для мобильных устройств и сотни других параметров.
Вся эта обработанная и структурированная информация заносится в индекс. Когда вы вводите запрос, система ищет ответ не во всем интернете (это заняло бы годы), а в своем индексе — это происходит мгновенно.
3. Ранжирование и выдача результатов (Ranking)
Когда пользователь вводит свой запрос в поисковую строку, система находит в своем индексе все страницы, которые хоть как-то соответствуют запросу. Их могут быть миллионы.
Алгоритм — это сложнейшая математическая формула, которая сортирует (ранжирует) все эти страницы по степени их полезности и релевантности для конкретного запроса этого пользователя. Цель — показать самые лучшие и подходящие результаты на первой странице.
Что учитывают алгоритмы при ранжировании? (Ключевые факторы)
Алгоритмы — это коммерческая тайна, и они постоянно меняются (только Google в год вносит тысячи изменений). Однако известны основные группы факторов, которые они учитывают:
- Релевантность контента: Насколько точно содержание страницы соответствует смыслу запроса.
- Ключевые слова: Их наличие в заголовке (
<h1>
), тексте, мета-тегах. - Синонимы и LSI-слова: Алгоритмы понимают смысл, а не просто слова. Для запроса «как приготовить стейк» будут важны и слова «мясо», «гриль», «прожарка».
- Свежесть контента: Для одних запросов важны самые последние данные (новости, акции), для других — вечнозеленый контент (рецепт борща).
- Ключевые слова: Их наличие в заголовке (
- Качество и авторитетность страницы и сайта (Trust):
- Входящие ссылки (Backlinks): Это самый важный фактор. Если на ваш сайт ссылаются другие авторитетные сайты, это как «голос» за ваш сайт. Чем больше качественных голосов, тем выше вы в результатах.
- Поведенческие факторы: Как часто пользователи кликают именно на ваш сайт в выдаче? Как быстро они возвращаются назад к результатам поиска (это сигнал, что страница не ответила на их вопрос)? Сколько времени проводят на вашем сайте?
- Техническое состояние: Скорость загрузки, корректное отображение на мобильных устройствах, безопасность (HTTPS).
- Пользовательский фактор (Персонализация):
- Местоположение: Для запроса «кофейня рядом» результаты будут абсолютно разными для пользователя в Москве и в Санкт-Петербурге.
- История поиска и браузера: Поисковик старается персонализировать выдачу под ваши интересы.
- Язык и настройки устройства.
Краткий итог
- Роботы сканируют интернет и собирают данные со страниц.
- Полученная информация обрабатывается и складывается в гигантскую базу данных — Индекс.
- Когда вы вводите запрос, алгоритм моментально находит в индексе все подходящие страницы и сортирует их по сотням параметров, чтобы показать вам самый полезный и качественный результат на первой странице.
Это упрощенная модель, но она отражает суть. Современные поисковые системы наряду с нейронными сетями — это одни из самых сложных и продвинутых искусственных интеллектуальных систем в мире, главная цель которых — понимать не просто слова, а намерение пользователя, и находить самый точный ответ на его вопрос.