Что такое Генератор Robots.txt?
Генерируйте корректно оформленные файлы robots.txt для управления доступом поисковых роботов к вашему сайту. Добавляйте правила для user-agent, разрешённые и запрещённые пути, задержку обхода и ссылки на карту сайта — без ручного написания файла.
Добавляйте сколько угодно блоков user-agent — один для * (все боты) и отдельные для Googlebot, Bingbot, AhrefsBot, GPTBot и т. д. В каждом блоке можно перечислить несколько Allow и Disallow и при необходимости задать Crawl-delay в секундах. URL-адреса Sitemap выводятся отдельными строками в конце. Полученный текст копируется в /robots.txt вашего домена как есть.
Как использовать
- Добавьте правила для user-agent (например, Googlebot, Bingbot или * для всех) и укажите разрешённые или запрещённые пути.
- При необходимости задайте значение задержки обхода и добавьте URL карты сайта.
- Скопируйте или скачайте сгенерированный файл robots.txt и загрузите его в корень вашего сайта.
Когда использовать
- Блокировать обучающие AI-краулеры (GPTBot, ClaudeBot, CCBot, Google-Extended) от вашего контента.
- Прятать админку, внутренний поиск, staging-разделы и дубли страниц от индекса поисковиков.
- Переезд сайта с переключением на новый sitemap или временный запрет на индексацию во время редизайна.
Результат
Создайте правила, разрешающие всем поисковым роботам доступ к сайту, но блокирующие пути /admin/ и /api/, с картой сайта по адресу https://example.com/sitemap.xml.
Частые вопросы
- robots.txt действительно останавливает ботов или это лишь просьба?
- Это добровольный протокол. Серьёзные краулеры (Google, Bing, крупные архиверы) ему следуют. Скрейперы, вредоносные боты и часть «серых» AI-краулеров его игнорируют. Для реального контроля доступа используйте серверную аутентификацию или блокировку по IP и user-agent на edge.
- Чем отличается Disallow от noindex?
- Disallow запрещает обход — Google не скачивает страницу. Noindex (мета-тег или HTTP-заголовок) говорит не показывать страницу в выдаче, даже если её обошли. Если страница в Disallow, Google не увидит noindex, поэтому такие URL всё равно могут появиться в результатах.
- Куда конкретно класть файл robots.txt?
- Он должен лежать в корне домена и отдаваться по https://example.com/robots.txt. У каждого поддомена или подпапки нужен свой файл. В Next.js положите его в /public/robots.txt; на Vercel сработает и статический файл в корне проекта.
- Как запретить ChatGPT и Claude обучаться на моём сайте?
- Добавьте User-agent: GPTBot, User-agent: ClaudeBot, User-agent: CCBot, User-agent: anthropic-ai и User-agent: Google-Extended, после каждого — Disallow: /. Помните: Google-Extended исключает только из обучения, обычный Googlebot продолжает индексировать страницу.
- Соблюдает ли Google ещё директиву Crawl-delay?
- Нет. Google игнорирует Crawl-delay и использует настройки скорости обхода в Search Console. Bing, Yandex и Yahoo по-прежнему её соблюдают. Указанное здесь значение остаётся в файле как подсказка для них, а Google просто пропускает эту строку.
Похожие инструменты
Генератор структурированных данных
Создайте разметку JSON-LD Schema для SEO
Веб-страница в PDF
Сохранение веб-страницы в виде PDF
Генератор политики конфиденциальности
Создайте политику конфиденциальности для вашего сайта
Генератор условий использования
Сгенерируйте документ с условиями использования
Генератор согласия на использование файлов cookie
Создание кода баннера согласия на использование cookie
Минификатор CSS
Сжатие CSS-кода для уменьшения размера файла