什麼是Robots.txt產生器?

產生格式正確的robots.txt檔案,控制搜尋引擎爬蟲對網站的存取方式。可新增User-Agent規則、設定允許/禁止路徑、指定爬取延遲和網站地圖參照,無需手動撰寫檔案。

可以視需要新增任意數量的 user-agent 區塊:一個對 *(所有爬蟲),其餘分別對 Googlebot、Bingbot、AhrefsBot、GPTBot 等。每個區塊都能列出多條 Allow 和 Disallow 路徑,以及可選的秒級 Crawl-delay。檔案末尾會單獨列出各條 Sitemap 連結。輸出就是要放到網域 /robots.txt 的原文。

使用方法

  1. 新增User-Agent規則(如Googlebot、Bingbot或*代表全部),並指定允許或禁止存取的路徑。
  2. 可選擇設定爬取延遲並新增網站地圖URL。
  3. 複製或下載產生的robots.txt檔案,上傳到網站根目錄即可。

何時使用

  • 封鎖 AI 訓練爬蟲(GPTBot、ClaudeBot、CCBot、Google-Extended),不讓它們抓取內容。
  • 把後台、站內搜尋、預發或內容重複的路徑擋在搜尋引擎索引外。
  • 網站搬遷時將爬蟲指向新 sitemap,或改版期間暫時封鎖整站。

結果

建立規則允許所有爬蟲存取網站,但封鎖/admin/和/api/路徑,並宣告網站地圖位址為https://example.com/sitemap.xml。

常見問題

robots.txt 真的能阻止爬蟲抓取,還是只是禮貌提示?
這是自願遵守的協定。Google、Bing 等主要爬蟲與大型備存計畫會遵守。資料抓取腳本、惡意爬蟲、部分灰色地帶的 AI 爬蟲都不會理。要真正控管存取,需在伺服器端做驗證或在邊緣以 IP 與 user-agent 阻擋。
Disallow 和 noindex 差在哪?
Disallow 阻止抓取,Google 根本不會抓網頁。noindex(meta 標籤或 HTTP header)則是即便抓了也不要顯示在搜尋結果。被 Disallow 的頁面 Google 看不到 noindex,所以那些網址仍有可能出現在結果中。
robots.txt 應該放在哪個位置?
必須在網域根目錄,網址為 https://example.com/robots.txt。子目錄或子網域要各自準備一份。Next.js 專案放到 /public/robots.txt 即可;Vercel 專案根目錄放一份靜態檔也可以。
怎麼阻止 ChatGPT、Claude 拿我的網站做訓練?
新增 User-agent: GPTBot、User-agent: ClaudeBot、User-agent: CCBot、User-agent: anthropic-ai、User-agent: Google-Extended,每段後加上 Disallow: /。注意 Google-Extended 只阻訓練,Googlebot 仍正常索引頁面。
Crawl-delay 現在 Google 還會看嗎?
不會。Google 略過 Crawl-delay,改用 Search Console 內的抓取速率設定。Bing、Yandex、Yahoo 仍會遵守。此處設定的值會保留在檔案中對那些爬蟲生效,Google 看到該行直接跳過。

相關工具