Определение Шингл
Шингл (shingle) — строительный термин, который SEO-шники угнали для своих нужд 🐗. По сути, это N-граммы: текст разбивается на перекрывающиеся кусочки из нескольких слов, и каждый такой кусочек — один шингл. Именно по ним поисковые системы сравнивают документы между собой и делают вывод: уникальный текст или копипаста.
Механика простая. Берёшь фразу "купить дешёвые кроссовки в москве", задаёшь длину шингла, например 3 слова, и получаешь набор: "купить дешёвые кроссовки", "дешёвые кроссовки в", "кроссовки в москве". Каждый такой фрагмент хешируется — и это уже отпечаток документа. Алгоритм MinHash/SimHash сравнивает наборы хешей двух страниц и выдаёт процент похожести. Если у тебя лендос под гемблинг или нутру скопирован с оффера рекламодателя на 80%+ — поисковик это поймает без единого живого модератора. Именно шинглы лежат в основе детектора дублей у Яндекса (алгоритм "Шингл" буквально так и называется в патентах) и аналогичных механизмов у Google. В SEO это важно при масштабировании: штампуешь 500 страниц под ГЕО с заменой одного слова — блять, шинглы совпадут почти на 100%, и сайт улетит в дополнительные результаты или фильтр. 😩
Главная ловушка — думать, что достаточно поменять синонимы через спинтакс. Если структура предложений та же, хеши шинглов будут совпадать. Второй момент: длина шингла влияет на чувствительность детектора. Короткие шинглы (2-3 слова) — жёсткое сравнение, любое совпадение цепляется. Длинные (7-10 слов) — мягче, случайные совпадения не считаются. При написании контента для вертикалей с высокой конкуренцией (гемблинг, нутра, финансы) уникальность надо гонять через сервисы, которые работают именно по шинглам, а не просто ищут точные совпадения фраз. Нормально делай — нормально будет 🐗
📝 Определение написано простым языком — чтобы было понятно с первого прочтения. Все термины →
Часто задаваемые вопросы
Что такое шингл в SEO? ▾
Шингл — это фрагмент текста из нескольких последовательных слов, используемый поисковыми системами для сравнения документов и определения степени их уникальности.
Как поисковики используют шинглы для определения дублей? ▾
Текст разбивается на перекрывающиеся последовательности слов (шинглы), каждый хешируется, а затем наборы хешей двух страниц сравниваются — при высоком проценте совпадения документ признаётся дублем.
Какой алгоритм Яндекс использует для поиска дублей через шинглы? ▾
Яндекс применяет алгоритм на основе MinHash/SimHash, который сравнивает хеши шинглов документов — этот подход официально описан в патентах компании под названием «Шингл».
Какой размер шингла считается оптимальным для проверки уникальности? ▾
Обычно используют шинглы длиной 3–5 слов: короткие (2–3 слова) дают более жёсткое сравнение, длинные (7–10 слов) — мягче и меньше ложных срабатываний.
Помогает ли синонимизация текста (спинтакс) обойти шингл-анализ? ▾
Частично: если структура предложений остаётся прежней, хеши шинглов будут совпадать даже после замены отдельных слов синонимами, поэтому глубокий рерайт эффективнее простого спинтакса.
Связанные термины
Alt — атрибут тега , который содержит текстовое описание картинки: без него поис...
AMP (Accelerated Mobile Pages) — гугловская технология для ракетной загрузки моб...
BM25 — алгоритм ранжирования документов по релевантности запросу, наследник TF-I...
Canonical — это тег rel="canonical", которым ты говоришь поисковику: «вот главна...
CatBoost — библиотека градиентного бустинга от Яндекса на деревьях решений: SEO-...
Noindex — директива для поисковиков, которая говорит: «не индексируй эту страниц...