¿Qué es Generador de Robots.txt?
Genera archivos robots.txt con formato correcto para controlar cómo los rastreadores de motores de búsqueda acceden a tu sitio web. Añade reglas de user-agent, rutas permitidas/bloqueadas, retardo de rastreo y referencias al sitemap, todo sin escribir el archivo a mano.
Añade tantos bloques de user-agent como necesites: uno para * (todos los bots) y otros específicos para Googlebot, Bingbot, AhrefsBot, GPTBot, etc. Cada bloque admite varias rutas Allow y Disallow y un valor opcional de Crawl-delay en segundos. Las URLs de Sitemap se imprimen como líneas separadas al final. La salida es el texto exacto que debe ir en /robots.txt de tu dominio.
Cómo usar
- Agrega reglas de user-agent (por ejemplo, Googlebot, Bingbot o * para todos) y especifica qué rutas permitir o bloquear.
- Opcionalmente configura valores de retardo de rastreo y añade la URL de tu sitemap.
- Copia o descarga el archivo robots.txt generado y súbelo a la raíz de tu sitio.
Cuándo usar
- Bloquear los rastreadores de entrenamiento de IA (GPTBot, ClaudeBot, CCBot, Google-Extended) sobre tu contenido.
- Esconder rutas de administración, búsqueda interna, staging o contenido duplicado del índice de los buscadores.
- Mover el sitio y apuntar a un nuevo sitemap, o bloquear todo de forma temporal durante una migración.
Resultado
Crea reglas que permitan a todos los rastreadores acceder a tu sitio pero bloqueen las rutas /admin/ y /api/, con un sitemap en https://example.com/sitemap.xml.
Preguntas frecuentes
- ¿robots.txt impide realmente el rastreo o es solo una petición?
- Es un protocolo voluntario. Los rastreadores serios (Google, Bing, archivos grandes) lo respetan. Scrapers, bots maliciosos y algún rastreador de IA dudoso lo ignoran. Para control de acceso real usa autenticación en el servidor o bloqueos por IP y user-agent en el borde.
- ¿Cuál es la diferencia entre Disallow y noindex?
- Disallow impide el rastreo: Google no descarga la página. Noindex (meta etiqueta o cabecera HTTP) le indica que no la muestre en resultados aunque la rastree. Si la página está Disallow, Google no puede leer el noindex, así que esas URLs aún pueden aparecer en los resultados.
- ¿Dónde tengo que subir el archivo robots.txt exactamente?
- Debe estar en la raíz del dominio, accesible en https://ejemplo.com/robots.txt. Subcarpetas o subdominios necesitan su propio archivo. En Next.js colócalo en /public/robots.txt; en Vercel basta con un archivo estático en la raíz del proyecto.
- ¿Cómo evito que ChatGPT y Claude entrenen con mi sitio?
- Añade User-agent: GPTBot, User-agent: ClaudeBot, User-agent: CCBot, User-agent: anthropic-ai y User-agent: Google-Extended, cada uno seguido de Disallow: /. Ten en cuenta que Google-Extended solo te excluye del entrenamiento; Googlebot sigue indexando la página.
- ¿Google sigue respetando Crawl-delay?
- No. Google ignora Crawl-delay y usa la configuración de tasa de rastreo de Search Console. Bing, Yandex y Yahoo siguen respetándolo. El valor que pongas aquí queda en el archivo como pista para esos rastreadores; Google se salta la línea.
Herramientas relacionadas
Generador de datos estructurados
Genera marcado JSON-LD de esquema para SEO
Página web a PDF
Captura una página web como PDF
Generador de política de privacidad
Genera una política de privacidad para tu sitio web
Generador de términos de servicio
Genera un documento de términos de servicio
Generador de Consentimiento de Cookies
Genera código para banners de consentimiento de cookies
Minificador CSS
Minifica código CSS para reducir el tamaño del archivo