什麼是Robots.txt產生器?
產生格式正確的robots.txt檔案,控制搜尋引擎爬蟲對網站的存取方式。可新增User-Agent規則、設定允許/禁止路徑、指定爬取延遲和網站地圖參照,無需手動撰寫檔案。
可以視需要新增任意數量的 user-agent 區塊:一個對 *(所有爬蟲),其餘分別對 Googlebot、Bingbot、AhrefsBot、GPTBot 等。每個區塊都能列出多條 Allow 和 Disallow 路徑,以及可選的秒級 Crawl-delay。檔案末尾會單獨列出各條 Sitemap 連結。輸出就是要放到網域 /robots.txt 的原文。
使用方法
- 新增User-Agent規則(如Googlebot、Bingbot或*代表全部),並指定允許或禁止存取的路徑。
- 可選擇設定爬取延遲並新增網站地圖URL。
- 複製或下載產生的robots.txt檔案,上傳到網站根目錄即可。
何時使用
- 封鎖 AI 訓練爬蟲(GPTBot、ClaudeBot、CCBot、Google-Extended),不讓它們抓取內容。
- 把後台、站內搜尋、預發或內容重複的路徑擋在搜尋引擎索引外。
- 網站搬遷時將爬蟲指向新 sitemap,或改版期間暫時封鎖整站。
結果
建立規則允許所有爬蟲存取網站,但封鎖/admin/和/api/路徑,並宣告網站地圖位址為https://example.com/sitemap.xml。
常見問題
- robots.txt 真的能阻止爬蟲抓取,還是只是禮貌提示?
- 這是自願遵守的協定。Google、Bing 等主要爬蟲與大型備存計畫會遵守。資料抓取腳本、惡意爬蟲、部分灰色地帶的 AI 爬蟲都不會理。要真正控管存取,需在伺服器端做驗證或在邊緣以 IP 與 user-agent 阻擋。
- Disallow 和 noindex 差在哪?
- Disallow 阻止抓取,Google 根本不會抓網頁。noindex(meta 標籤或 HTTP header)則是即便抓了也不要顯示在搜尋結果。被 Disallow 的頁面 Google 看不到 noindex,所以那些網址仍有可能出現在結果中。
- robots.txt 應該放在哪個位置?
- 必須在網域根目錄,網址為 https://example.com/robots.txt。子目錄或子網域要各自準備一份。Next.js 專案放到 /public/robots.txt 即可;Vercel 專案根目錄放一份靜態檔也可以。
- 怎麼阻止 ChatGPT、Claude 拿我的網站做訓練?
- 新增 User-agent: GPTBot、User-agent: ClaudeBot、User-agent: CCBot、User-agent: anthropic-ai、User-agent: Google-Extended,每段後加上 Disallow: /。注意 Google-Extended 只阻訓練,Googlebot 仍正常索引頁面。
- Crawl-delay 現在 Google 還會看嗎?
- 不會。Google 略過 Crawl-delay,改用 Search Console 內的抓取速率設定。Bing、Yandex、Yahoo 仍會遵守。此處設定的值會保留在檔案中對那些爬蟲生效,Google 看到該行直接跳過。