O que é Gerador de Robots.txt?
Gere arquivos robots.txt formatados corretamente para controlar como os rastreadores de mecanismos de busca acessam seu site. Adicione regras de user-agent, caminhos permitidos/bloqueados, defina intervalos de rastreamento e inclua referências ao sitemap — tudo sem escrever o arquivo manualmente.
Adicione quantos blocos de user-agent precisar: um para * (todos os bots) e outros separados para Googlebot, Bingbot, AhrefsBot, GPTBot e mais. Cada bloco aceita várias rotas Allow e Disallow e um valor opcional de Crawl-delay em segundos. URLs de Sitemap saem em linhas separadas no final. A saída é o texto exato que vai em /robots.txt do seu domínio.
Como usar
- Adicione regras de user-agent (ex.: Googlebot, Bingbot ou * para todos) e especifique quais caminhos permitir ou bloquear.
- Opcionalmente, defina valores de atraso de rastreamento e adicione a URL do seu sitemap.
- Copie ou baixe o arquivo robots.txt gerado e faça o upload para a raiz do seu site.
Quando usar
- Bloquear rastreadores de treinamento de IA (GPTBot, ClaudeBot, CCBot, Google-Extended) sobre o seu conteúdo.
- Esconder áreas de admin, busca interna, staging ou conteúdo duplicado do índice dos buscadores.
- Migrar o site e apontar para um novo sitemap, ou bloquear tudo temporariamente durante uma reformulação.
Resultado
Crie regras que permitam todos os rastreadores no seu site, mas bloqueiem os caminhos /admin/ e /api/, com um sitemap em https://example.com/sitemap.xml.
Perguntas frequentes
- O robots.txt realmente impede o rastreamento ou é só um pedido?
- É um protocolo voluntário. Rastreadores sérios (Google, Bing, grandes arquivos) seguem. Scrapers, bots maliciosos e alguns crawlers de IA em área cinza ignoram. Para controle de acesso real, use autenticação no servidor ou bloqueio por IP e user-agent na borda.
- Qual a diferença entre Disallow e noindex?
- Disallow impede o rastreamento: o Google não baixa a página. Noindex (meta tag ou cabeçalho HTTP) diz para o Google não mostrar nos resultados mesmo que rastreie. Se a página estiver Disallow, o Google não vê o noindex, então essas URLs ainda podem aparecer nos resultados.
- Onde exatamente subir o arquivo robots.txt?
- Tem que estar na raiz do domínio, servido em https://exemplo.com/robots.txt. Subpastas ou subdomínios precisam do próprio arquivo. No Next.js coloque em /public/robots.txt; na Vercel um arquivo estático na raiz do projeto também serve.
- Como bloqueio ChatGPT e Claude de treinarem com o meu site?
- Acrescente User-agent: GPTBot, User-agent: ClaudeBot, User-agent: CCBot, User-agent: anthropic-ai e User-agent: Google-Extended, cada um seguido de Disallow: /. Lembre que Google-Extended só te tira do treinamento; o Googlebot comum continua indexando a página.
- O Google ainda respeita Crawl-delay?
- Não. O Google ignora Crawl-delay e usa a configuração de taxa de rastreamento no Search Console. Bing, Yandex e Yahoo ainda respeitam. O valor definido aqui permanece no arquivo como dica para esses rastreadores; o Google só pula a linha.
Ferramentas relacionadas
Gerador de dados estruturados
Gere marcação JSON-LD de schema para SEO
Página web para PDF
Capture uma página web como PDF
Gerador de política de privacidade
Gere uma política de privacidade para o seu site
Gerador de termos de serviço
Gere um documento de termos de serviço
Gerador de Consentimento de Cookies
Gera código para banners de consentimento de cookies
Minificador CSS
Minifique código CSS para reduzir o tamanho do arquivo