Was ist Robots.txt-Generator?

Erzeugen Sie korrekt formatierte robots.txt-Dateien, um zu steuern, wie Suchmaschinen-Crawler auf Ihre Website zugreifen. Fügen Sie User-Agent-Regeln hinzu, erlauben oder sperren Sie Pfade, legen Sie Crawl-Verzögerungen fest und binden Sie Sitemap-Verweise ein – ganz ohne manuelles Schreiben.

Beliebig viele user-agent-Blöcke einfügen: einen für * (alle Bots) und separate für Googlebot, Bingbot, AhrefsBot, GPTBot usw. Jeder Block kann mehrere Allow- und Disallow-Pfade enthalten und einen optionalen Crawl-delay-Wert in Sekunden. Sitemap-URLs erscheinen als eigene Zeilen am Ende. Die Ausgabe ist der exakte Text, der unter /robots.txt der Domain liegen muss.

Anleitung

  1. Fügen Sie User-Agent-Regeln hinzu (z. B. Googlebot, Bingbot oder * für alle) und legen Sie fest, welche Pfade erlaubt oder gesperrt werden sollen.
  2. Stellen Sie optional Crawl-Delay-Werte ein und fügen Sie Ihre Sitemap-URL hinzu.
  3. Kopieren oder laden Sie die generierte robots.txt-Datei herunter und laden Sie sie in das Stammverzeichnis Ihrer Website hoch.

Wann verwenden

  • KI-Trainings-Crawler (GPTBot, ClaudeBot, CCBot, Google-Extended) vom eigenen Content fernhalten.
  • Admin-, Suche-, Staging- oder Duplicate-Content-Pfade aus dem Index der Suchmaschinen heraushalten.
  • Bei einem Site-Umzug auf eine neue Sitemap zeigen oder während des Relaunches vorübergehend alles sperren.

Ergebnis

Erstellen Sie Regeln, die allen Crawlern den Zugriff auf Ihre Website erlauben, aber die Pfade /admin/ und /api/ blockieren, mit einer Sitemap unter https://example.com/sitemap.xml.

Häufige Fragen

Stoppt robots.txt Bots wirklich oder ist das nur eine Bitte?
Es ist ein freiwilliges Protokoll. Seriöse Crawler (Google, Bing, große Archive) halten sich daran. Scraper, schädliche Bots und manche Graubereich-KI-Crawler ignorieren es. Echte Zugriffskontrolle erfordert Server-Authentifizierung oder Sperren nach IP und User-Agent am Edge.
Was ist der Unterschied zwischen Disallow und noindex?
Disallow verhindert das Crawlen, Google lädt die Seite gar nicht. Noindex (Meta-Tag oder HTTP-Header) sagt Google, die Seite trotz Crawls nicht in den Ergebnissen zu zeigen. Eine per Disallow gesperrte Seite kann das noindex nicht ausspielen, daher landen solche URLs manchmal trotzdem im Index.
Wohin gehört die Datei robots.txt genau?
Sie muss in der Domain-Wurzel liegen und unter https://example.com/robots.txt erreichbar sein. Unterordner oder Subdomains brauchen jeweils eine eigene. In Next.js gehört sie nach /public/robots.txt; auf Vercel reicht eine statische Datei im Projekt-Root.
Wie sperre ich ChatGPT und Claude vom Training mit meiner Seite?
Füge User-agent: GPTBot, User-agent: ClaudeBot, User-agent: CCBot, User-agent: anthropic-ai und User-agent: Google-Extended hinzu, jeweils mit Disallow: /. Achtung: Google-Extended schließt dich nur vom Training aus, der reguläre Googlebot indexiert die Seite weiterhin.
Beachtet Google Crawl-delay noch?
Nein. Google ignoriert Crawl-delay und verwendet stattdessen die Crawl-Frequenz aus der Search Console. Bing, Yandex und Yahoo halten sich noch daran. Ein hier gesetzter Wert bleibt in der Datei als Hinweis für diese Crawler, Google überspringt die Zeile.

Ähnliche Tools