Qu'est-ce que Générateur de Robots.txt ?
Générez des fichiers robots.txt correctement formatés pour contrôler la manière dont les robots d'indexation accèdent à votre site web. Ajoutez des règles user-agent, autorisez ou bloquez des chemins, définissez des délais d'exploration et incluez des références au sitemap — le tout sans écrire le fichier à la main.
Ajoutez autant de blocs user-agent que nécessaire : un pour * (tous les bots) et d'autres dédiés à Googlebot, Bingbot, AhrefsBot, GPTBot, etc. Chaque bloc accepte plusieurs Allow et Disallow ainsi qu'une valeur Crawl-delay en secondes. Les URLs de Sitemap sortent en lignes séparées à la fin. La sortie est le texte exact à placer dans /robots.txt de votre domaine.
Comment utiliser
- Ajoutez des règles user-agent (ex. : Googlebot, Bingbot ou * pour tous) et précisez les chemins à autoriser ou à bloquer.
- Définissez éventuellement des valeurs de délai d'exploration et ajoutez l'URL de votre sitemap.
- Copiez ou téléchargez le fichier robots.txt généré et déposez-le à la racine de votre site.
Quand l'utiliser
- Bloquer les robots d'entraînement IA (GPTBot, ClaudeBot, CCBot, Google-Extended) sur votre contenu.
- Masquer les zones d'admin, la recherche interne, le staging ou les pages dupliquées de l'indexation.
- Migrer un site et pointer vers un nouveau sitemap, ou tout interdire le temps d'une refonte.
Résultat
Créez des règles autorisant tous les robots sur votre site tout en bloquant les chemins /admin/ et /api/, avec un sitemap à l'adresse https://example.com/sitemap.xml.
FAQ
- robots.txt empêche-t-il vraiment le crawl ou est-ce une simple demande ?
- C'est un protocole volontaire. Les crawlers sérieux (Google, Bing, les grandes archives) le respectent. Les scrapers, les bots malveillants et certains crawlers IA en zone grise l'ignorent. Pour un vrai contrôle, utilisez l'authentification serveur ou bloquez par IP et user-agent à la périphérie.
- Quelle est la différence entre Disallow et noindex ?
- Disallow empêche le crawl, Google ne télécharge pas la page. Noindex (balise meta ou en-tête HTTP) demande à ne pas afficher la page dans les résultats même si elle est crawlée. Une page en Disallow empêche Google de voir le noindex, et ces URLs peuvent malgré tout apparaître dans les résultats.
- Où faut-il déposer le fichier robots.txt exactement ?
- Il doit être à la racine du domaine, servi sur https://exemple.com/robots.txt. Les sous-dossiers ou sous-domaines en ont chacun besoin. En Next.js, mettez-le dans /public/robots.txt ; sur Vercel un fichier statique à la racine du projet fait l'affaire.
- Comment empêcher ChatGPT et Claude d'entraîner leurs modèles sur mon site ?
- Ajoutez User-agent: GPTBot, User-agent: ClaudeBot, User-agent: CCBot, User-agent: anthropic-ai et User-agent: Google-Extended, chacun suivi de Disallow: /. À noter : Google-Extended ne fait que vous exclure de l'entraînement, Googlebot continue d'indexer la page.
- Google respecte-t-il encore Crawl-delay ?
- Non. Google ignore Crawl-delay et utilise plutôt le réglage de fréquence de crawl dans Search Console. Bing, Yandex et Yahoo le respectent toujours. La valeur saisie reste dans le fichier comme indication pour ces crawlers ; Google se contente d'ignorer la ligne.
Outils similaires
Générateur de données structurées
Générez du balisage JSON-LD de schéma pour le SEO
Page web en PDF
Capturez une page web en PDF
Générateur de politique de confidentialité
Générez une politique de confidentialité pour votre site
Générateur de conditions d'utilisation
Générez un document de conditions d'utilisation
Générateur de Consentement aux Cookies
Générer le code d'une bannière de consentement aux cookies
Minificateur CSS
Minifiez le code CSS pour réduire la taille du fichier