Robots.txt生成ツールとは?

検索エンジンのクローラーによるウェブサイトへのアクセスを制御する、適切な形式のrobots.txtファイルを生成します。ユーザーエージェントルール、許可・拒否パス、クロール遅延、サイトマップ参照の追加が、手動でファイルを記述することなく行えます。

user-agent ブロックは好きなだけ追加できます。*(すべてのクローラー)用に1つ、Googlebot・Bingbot・AhrefsBot・GPTBot などには個別に。各ブロックでは Allow と Disallow を複数指定でき、Crawl-delay も秒単位でつけられます。Sitemap の URL は末尾に独立行として出力されます。出力されたテキストをそのままドメインの /robots.txt に置けば動きます。

使い方

  1. ユーザーエージェントルール(Googlebot、Bingbot、またはすべてを指す*)を追加し、許可または拒否するパスを指定します。
  2. 必要に応じてクロール遅延の値を設定し、サイトマップURLを追加します。
  3. 生成されたrobots.txtファイルをコピーまたはダウンロードし、サイトのルートにアップロードしてください。

使用するタイミング

  • AI 学習用クローラー(GPTBot、ClaudeBot、CCBot、Google-Extended)からコンテンツを守りたいとき。
  • 管理画面・サイト内検索・ステージング・重複コンテンツを検索エンジンのインデックスから外したいとき。
  • サイト移転で新しい sitemap に誘導するときや、リニューアル中だけ全クロールを止めたいとき。

結果

すべてのクローラーにサイトへのアクセスを許可しつつ、/admin/と/api/パスをブロックし、サイトマップをhttps://example.com/sitemap.xmlに設定するルールを作成します。

よくある質問

robots.txt は本当にクローラーを止めるのですか、それともお願いに過ぎないのですか?
あくまで任意の協定です。Google、Bing、主要なアーカイブ事業者は守ります。スクレイピングスクリプト、悪意あるボット、グレーゾーンの AI クローラーは無視します。実効的なアクセス制御が必要ならサーバ側で認証を入れるか、エッジで IP と user-agent をブロックしてください。
Disallow と noindex はどう違いますか?
Disallow はクロールを止めるので、Google はそもそも取得しません。noindex(meta タグまたは HTTP ヘッダ)はクロールしても検索結果に出さないという指示です。Disallow されたページの noindex は Google から見えないため、Disallow した URL が検索結果に残ることがあります。
robots.txt はどこにアップロードすればよいですか?
必ずドメインのルートに置き、https://example.com/robots.txt で配信される必要があります。サブディレクトリやサブドメインはそれぞれ独自に用意します。Next.js なら /public/robots.txt、Vercel ならプロジェクトルートの静的ファイルでも動きます。
ChatGPT や Claude に自分のサイトを学習させないにはどうしますか?
User-agent: GPTBot、User-agent: ClaudeBot、User-agent: CCBot、User-agent: anthropic-ai、User-agent: Google-Extended の各セクションを作り、いずれにも Disallow: / を付けます。Google-Extended は学習をオプトアウトするだけで、通常の Googlebot は引き続き索引します。
Google は今でも Crawl-delay を読んでくれますか?
もう読みません。Google は Crawl-delay を無視し、Search Console のクロール頻度設定を使います。Bing、Yandex、Yahoo は今も尊重します。ここで設定した値はそれらのクローラー向けのヒントとして残り、Google はその行を素通りします。

関連ツール