Определение Сканирование
Сканирование (краулинг) — это процесс, при котором поисковый бот (Googlebot, Yandex Bot и другие) обходит страницы сайта, следуя по ссылкам, читая контент и передавая данные в индекс. 🐗 По сути, это первый рукопожим между твоим сайтом и поисковиком — если бот тебя не посетил, тебя для него не существует.
Механика простая: у поисковика есть очередь URL, которые нужно обойти. Бот приходит на страницу, скачивает HTML, парсит ссылки и добавляет новые адреса в очередь. Частота и глубина сканирования зависит от краулингового бюджета — и вот тут начинается боль 😩. Если у тебя сайт на 50 000 страниц, а бот тратит бюджет на мусорные фильтры, дубли и пагинацию — до нормального контента он может вообще не добраться. В SEO под гемблинг или нутру это критично: залил новые лендинги, а они не сканируются неделю — капа горит, а трафик нулевой. Контролировать поведение бота можно через robots.txt (запрет/разрешение путей), параметры crawl delay, sitemap и внутреннюю перелинковку. Чем лучше структура сайта — тем предсказуемее бот, тем быстрее новые страницы попадают в индекс.
Главные ошибки: закрыть важные страницы в robots.txt и забыть об этом 😆 — классика жанра, встречается даже у матёрых вебмастеров. Или накрутить миллион URL через параметры сессий и положить краулинговый бюджет в дрова 🗿. Ещё хуёво работает сканирование на медленных серверах — бот приходит, таймаутится и уходит. Следи за краулинговым бюджетом в Google Search Console, убивай мусорные URL, держи сервер бодрым. Нормально делай — нормально будет 🐗
📝 Определение написано простым языком — чтобы было понятно с первого прочтения. Все термины →
Часто задаваемые вопросы
Что такое сканирование сайта в SEO? ▾
Сканирование — это процесс обхода страниц сайта поисковым ботом для их последующего добавления в индекс. Без сканирования страница не может попасть в поисковую выдачу.
Как ускорить сканирование сайта поисковиками? ▾
Улучшите внутреннюю перелинковку, подайте XML-sitemap, уберите дублирующиеся и мусорные URL, обеспечьте быстрый отклик сервера. Это позволяет боту обходить больше полезных страниц за один визит.
Что такое краулинговый бюджет и как он влияет на сканирование? ▾
Краулинговый бюджет — это лимит страниц, которые поисковый бот готов обойти на вашем сайте за определённый период. Если бюджет тратится на ненужные страницы, важный контент может остаться неиндексированным.
Можно ли запретить сканирование отдельных страниц сайта? ▾
Да, для этого используется файл robots.txt с директивами Disallow, либо мета-тег noindex на конкретных страницах. Важно не закрыть случайно страницы, которые нужно продвигать.
Как проверить, сканирует ли Google мой сайт? ▾
В Google Search Console в разделе «Статистика сканирования» можно посмотреть активность Googlebot: частоту визитов, объём скачиваемых данных и коды ответов сервера.
Связанные термины
Alt — атрибут тега , который содержит текстовое описание картинки: без него поис...
AMP (Accelerated Mobile Pages) — гугловская технология для ракетной загрузки моб...
BM25 — алгоритм ранжирования документов по релевантности запросу, наследник TF-I...
Canonical — это тег rel="canonical", которым ты говоришь поисковику: «вот главна...
CatBoost — библиотека градиентного бустинга от Яндекса на деревьях решений: SEO-...
Noindex — директива для поисковиков, которая говорит: «не индексируй эту страниц...