Определение Robots.txt
Robots.txt — один из старейших стандартов веба, придуманный ещё в 1994 году. Это обычный текстовый файл, который живёт по адресу yourdomain.com/robots.txt и содержит директивы для поисковых роботов: что индексировать, а что обходить стороной. Простой, как молоток 🐗 — но настроить неправильно очень легко.
Внутри файла прописываются правила через директивы User-agent (кому правило адресовано), Disallow (запрещённые пути) и Allow (разрешённые). Например, `User-agent: *` с `Disallow: /admin/` закроет папку админки от всех роботов. В SEO это инструмент управления краулинговым бюджетом: если у тебя интернет-магазин с тысячами фильтров и дублей, без грамотного robots.txt Googlebot будет бесконечно жевать мусорные URL вместо важных страниц. В арбитражном контексте — на дорвейных проектах и сайтах под клоакинг robots.txt используют, чтобы аккуратно управлять тем, что видит бот, а что — нет 😩. Туда же прописывается путь к Sitemap: `Sitemap: https://yourdomain.com/sitemap.xml` — это базовый гигиенический минимум.
Главная ловушка — закрыть лишнее и положить себе весь сайт. Классика жанра: `Disallow: /` на проде после копипасты настроек со стейджинга. Сайт выпадает из индекса, паника, звонки, 😆 — смешно только со стороны. Ещё один косяк — думать, что robots.txt это защита. Это не так: файл носит рекомендательный характер, злой бот его проигнорирует без зазрения совести 🗿. Для реальной защиты нужны пароли и серверные правила. Нормально делай — нормально будет 🐗
📝 Определение написано простым языком — чтобы было понятно с первого прочтения. Все термины →
Часто задаваемые вопросы
Что такое robots.txt и зачем он нужен? ▾
Robots.txt — текстовый файл в корне сайта с инструкциями для поисковых роботов: какие страницы индексировать, а какие игнорировать. Нужен для управления краулинговым бюджетом и скрытия служебных разделов от поиска.
Как проверить robots.txt своего сайта? ▾
Просто откройте браузер и перейдите по адресу yourdomain.com/robots.txt — файл должен отдаваться как обычный текст. Также его можно проверить через Google Search Console в разделе «Инструмент проверки robots.txt».
Закрывает ли robots.txt страницы от индексации надёжно? ▾
Нет, директивы в robots.txt носят рекомендательный характер — добросовестные роботы их соблюдают, но злоумышленники или сторонние краулеры могут игнорировать. Для надёжного закрытия контента используйте тег noindex или парольную защиту.
Как добавить Sitemap в robots.txt? ▾
В конце файла добавьте строку: Sitemap: https://yourdomain.com/sitemap.xml — это подскажет роботам, где искать карту сайта, и ускорит индексацию.
Что будет, если закрыть весь сайт через robots.txt? ▾
Если прописать Disallow: / для всех агентов, поисковые роботы перестанут сканировать сайт, и он постепенно выпадет из индекса. Это одна из самых частых и критичных ошибок при переносе настроек со staging-окружения на продакшн.
Связанные термины
2FA (Two-Factor Authentication) — двухфакторная аутентификация: вход в аккаунт ч...
3D-Secure — это такая хрень, которая появилась, чтобы защитить нас, бедных арбит...
Ads.txt — текстовый файл в корне сайта (или домена разработчика для приложений),...
AJAX — технология асинхронного обмена данными с сервером без перезагрузки страни...
API-токен — это твой цифровой пропуск в систему: уникальная строка символов, кот...
Click Hijacking — это, блять, когда хакеры ставят на сайте невидимые элементы, к...