O que é Gerador de Robots.txt?

Gere arquivos robots.txt formatados corretamente para controlar como os rastreadores de mecanismos de busca acessam seu site. Adicione regras de user-agent, caminhos permitidos/bloqueados, defina intervalos de rastreamento e inclua referências ao sitemap — tudo sem escrever o arquivo manualmente.

Adicione quantos blocos de user-agent precisar: um para * (todos os bots) e outros separados para Googlebot, Bingbot, AhrefsBot, GPTBot e mais. Cada bloco aceita várias rotas Allow e Disallow e um valor opcional de Crawl-delay em segundos. URLs de Sitemap saem em linhas separadas no final. A saída é o texto exato que vai em /robots.txt do seu domínio.

Como usar

  1. Adicione regras de user-agent (ex.: Googlebot, Bingbot ou * para todos) e especifique quais caminhos permitir ou bloquear.
  2. Opcionalmente, defina valores de atraso de rastreamento e adicione a URL do seu sitemap.
  3. Copie ou baixe o arquivo robots.txt gerado e faça o upload para a raiz do seu site.

Quando usar

  • Bloquear rastreadores de treinamento de IA (GPTBot, ClaudeBot, CCBot, Google-Extended) sobre o seu conteúdo.
  • Esconder áreas de admin, busca interna, staging ou conteúdo duplicado do índice dos buscadores.
  • Migrar o site e apontar para um novo sitemap, ou bloquear tudo temporariamente durante uma reformulação.

Resultado

Crie regras que permitam todos os rastreadores no seu site, mas bloqueiem os caminhos /admin/ e /api/, com um sitemap em https://example.com/sitemap.xml.

Perguntas frequentes

O robots.txt realmente impede o rastreamento ou é só um pedido?
É um protocolo voluntário. Rastreadores sérios (Google, Bing, grandes arquivos) seguem. Scrapers, bots maliciosos e alguns crawlers de IA em área cinza ignoram. Para controle de acesso real, use autenticação no servidor ou bloqueio por IP e user-agent na borda.
Qual a diferença entre Disallow e noindex?
Disallow impede o rastreamento: o Google não baixa a página. Noindex (meta tag ou cabeçalho HTTP) diz para o Google não mostrar nos resultados mesmo que rastreie. Se a página estiver Disallow, o Google não vê o noindex, então essas URLs ainda podem aparecer nos resultados.
Onde exatamente subir o arquivo robots.txt?
Tem que estar na raiz do domínio, servido em https://exemplo.com/robots.txt. Subpastas ou subdomínios precisam do próprio arquivo. No Next.js coloque em /public/robots.txt; na Vercel um arquivo estático na raiz do projeto também serve.
Como bloqueio ChatGPT e Claude de treinarem com o meu site?
Acrescente User-agent: GPTBot, User-agent: ClaudeBot, User-agent: CCBot, User-agent: anthropic-ai e User-agent: Google-Extended, cada um seguido de Disallow: /. Lembre que Google-Extended só te tira do treinamento; o Googlebot comum continua indexando a página.
O Google ainda respeita Crawl-delay?
Não. O Google ignora Crawl-delay e usa a configuração de taxa de rastreamento no Search Console. Bing, Yandex e Yahoo ainda respeitam. O valor definido aqui permanece no arquivo como dica para esses rastreadores; o Google só pula a linha.

Ferramentas relacionadas