Определение BM25
BM25 (Best Match 25) — это алгоритм ранжирования, который оценивает, насколько документ релевантен поисковому запросу. Придуман ещё в 90-х командой Оукриджа и Лондонского университета, пережил эпоху Web 1.0, Web 2.0, эпоху нейросетей — и всё ещё торчит в кишках Elasticsearch, Apache Lucene и самого Solr 🐗. Это не хайп, это проверенная математика.
Механика простая, но хитрая. BM25 считает частоту термина в документе (TF), но не линейно — она насыщается: если слово "казино" встречается 100 раз вместо 10, прирост релевантности уже минимальный. Плюс он учитывает IDF — насколько редкое слово в принципе по всему корпусу документов. И главное — нормализует по длине документа: длинная простыня текста не выиграет у короткого чёткого ответа просто за счёт объёма. Параметры k1 (насыщение TF, обычно 1.2–2.0) и b (нормализация длины, обычно 0.75) настраиваются под конкретную задачу. В SEO-контексте понимание BM25 объясняет, почему "тошнота" текста и бездумная плотность ключей уже давно не работает 😩: поисковик насыщается раньше, чем ты думаешь. В iGaming и нутре, где конкуренция по ВЧ-запросам бешеная, правильная структура контента под BM25 — это разница между топ-3 и второй страницей.
Главная ошибка — думать, что BM25 = конечная правда поисковика. Google давно поверх него накрутил десятки сигналов: поведенческие, ссылочные, PageRank, нейросети типа BERT и MUM 😆. BM25 — это фундамент, а не весь дом. Второй косяк — игнорировать параметр длины: пишешь лонгрид ради объёма, а он размывает сигнал и проигрывает компактному, чёткому конкуренту. Используй BM25-логику при составлении структуры страниц: ключ в заголовке, в первом абзаце, без спама, разнообразие синонимов — и алгоритм тебя поймёт. Нормально делай — нормально будет 🐗
📝 Определение написано простым языком — чтобы было понятно с первого прочтения. Все термины →
Часто задаваемые вопросы
Что такое BM25 в SEO простыми словами? ▾
BM25 — алгоритм, который оценивает релевантность документа поисковому запросу на основе частоты слов и длины текста. Он лежит в основе большинства современных поисковых движков и влияет на ранжирование страниц.
Чем BM25 отличается от TF-IDF? ▾
BM25 — это улучшенная версия TF-IDF: он добавляет насыщение частоты термина (чтобы повторение слова не давало бесконечный бонус) и нормализацию по длине документа, что делает ранжирование точнее.
Использует ли Google алгоритм BM25? ▾
Google не раскрывает детали алгоритма, но BM25 считается одним из базовых компонентов текстового ранжирования — поверх него работают поведенческие сигналы, ссылочные факторы и нейросетевые модели вроде BERT.
Как BM25 влияет на плотность ключевых слов в тексте? ▾
BM25 использует насыщение TF, поэтому бесконтрольное повторение ключевого слова практически не увеличивает релевантность после определённого порога. Это объясняет, почему переспам ключей не работает.
Где применяется BM25 помимо Google? ▾
BM25 — стандартный алгоритм ранжирования в Elasticsearch, Apache Lucene, Solr и многих других поисковых системах. Его используют при построении внутреннего поиска на сайтах, в рекомендательных системах и векторных базах данных.
Связанные термины
CatBoost — библиотека градиентного бустинга от Яндекса на деревьях решений: SEO-...
Alt — атрибут тега , который содержит текстовое описание картинки: без него поис...
AMP (Accelerated Mobile Pages) — гугловская технология для ракетной загрузки моб...
BERT — алгоритм Google на нейросетях, который научил поисковик понимать смысл за...
Canonical — это тег rel="canonical", которым ты говоришь поисковику: «вот главна...
EMD (Exact Match Domain) — домен, где урл буквально совпадает с ключевым запросо...