Что такое Генератор Robots.txt?

Генерируйте корректно оформленные файлы robots.txt для управления доступом поисковых роботов к вашему сайту. Добавляйте правила для user-agent, разрешённые и запрещённые пути, задержку обхода и ссылки на карту сайта — без ручного написания файла.

Добавляйте сколько угодно блоков user-agent — один для * (все боты) и отдельные для Googlebot, Bingbot, AhrefsBot, GPTBot и т. д. В каждом блоке можно перечислить несколько Allow и Disallow и при необходимости задать Crawl-delay в секундах. URL-адреса Sitemap выводятся отдельными строками в конце. Полученный текст копируется в /robots.txt вашего домена как есть.

Как использовать

  1. Добавьте правила для user-agent (например, Googlebot, Bingbot или * для всех) и укажите разрешённые или запрещённые пути.
  2. При необходимости задайте значение задержки обхода и добавьте URL карты сайта.
  3. Скопируйте или скачайте сгенерированный файл robots.txt и загрузите его в корень вашего сайта.

Когда использовать

  • Блокировать обучающие AI-краулеры (GPTBot, ClaudeBot, CCBot, Google-Extended) от вашего контента.
  • Прятать админку, внутренний поиск, staging-разделы и дубли страниц от индекса поисковиков.
  • Переезд сайта с переключением на новый sitemap или временный запрет на индексацию во время редизайна.

Результат

Создайте правила, разрешающие всем поисковым роботам доступ к сайту, но блокирующие пути /admin/ и /api/, с картой сайта по адресу https://example.com/sitemap.xml.

Частые вопросы

robots.txt действительно останавливает ботов или это лишь просьба?
Это добровольный протокол. Серьёзные краулеры (Google, Bing, крупные архиверы) ему следуют. Скрейперы, вредоносные боты и часть «серых» AI-краулеров его игнорируют. Для реального контроля доступа используйте серверную аутентификацию или блокировку по IP и user-agent на edge.
Чем отличается Disallow от noindex?
Disallow запрещает обход — Google не скачивает страницу. Noindex (мета-тег или HTTP-заголовок) говорит не показывать страницу в выдаче, даже если её обошли. Если страница в Disallow, Google не увидит noindex, поэтому такие URL всё равно могут появиться в результатах.
Куда конкретно класть файл robots.txt?
Он должен лежать в корне домена и отдаваться по https://example.com/robots.txt. У каждого поддомена или подпапки нужен свой файл. В Next.js положите его в /public/robots.txt; на Vercel сработает и статический файл в корне проекта.
Как запретить ChatGPT и Claude обучаться на моём сайте?
Добавьте User-agent: GPTBot, User-agent: ClaudeBot, User-agent: CCBot, User-agent: anthropic-ai и User-agent: Google-Extended, после каждого — Disallow: /. Помните: Google-Extended исключает только из обучения, обычный Googlebot продолжает индексировать страницу.
Соблюдает ли Google ещё директиву Crawl-delay?
Нет. Google игнорирует Crawl-delay и использует настройки скорости обхода в Search Console. Bing, Yandex и Yahoo по-прежнему её соблюдают. Указанное здесь значение остаётся в файле как подсказка для них, а Google просто пропускает эту строку.

Похожие инструменты