Robots.txt 생성기이란?
검색 엔진 크롤러가 웹사이트에 접근하는 방식을 제어하는 올바른 형식의 robots.txt 파일을 생성합니다. User-Agent 규칙 추가, 허용/차단 경로 설정, 크롤 지연 시간 설정, 사이트맵 참조 포함을 파일을 직접 작성하지 않고도 할 수 있습니다.
user-agent 블록은 필요한 만큼 추가할 수 있습니다. *(모든 봇)용 하나, Googlebot, Bingbot, AhrefsBot, GPTBot 같은 각 봇용으로 별도 블록을 만들면 됩니다. 각 블록에 여러 개의 Allow와 Disallow 경로를 넣을 수 있고, 초 단위 Crawl-delay 값도 선택적으로 추가됩니다. Sitemap URL은 파일 끝에 별도 줄로 출력됩니다. 결과 텍스트를 그대로 도메인의 /robots.txt 위치에 올리면 됩니다.
사용 방법
- User-Agent 규칙(예: Googlebot, Bingbot 또는 모든 크롤러를 위한 *)을 추가하고 허용 또는 차단할 경로를 지정하세요.
- 선택적으로 크롤 지연 값을 설정하고 사이트맵 URL을 추가하세요.
- 생성된 robots.txt 파일을 복사하거나 다운로드하여 사이트 루트 디렉토리에 업로드하세요.
사용 시기
- AI 학습 크롤러(GPTBot, ClaudeBot, CCBot, Google-Extended)가 콘텐츠를 가져가지 못하게 막을 때.
- 관리자 페이지, 내부 검색, 스테이징, 중복 콘텐츠 경로를 검색엔진 색인에서 빼고 싶을 때.
- 사이트 이전 시 새 sitemap으로 크롤러를 안내하거나, 리뉴얼 동안 일시적으로 전체를 막을 때.
결과
모든 크롤러에 사이트 접근을 허용하되 /admin/과 /api/ 경로는 차단하고, https://example.com/sitemap.xml에 사이트맵을 지정하는 규칙을 만드세요.
자주 묻는 질문
- robots.txt가 실제로 봇을 막아 주나요, 아니면 그냥 부탁인가요?
- 자발적으로 따르는 약속에 가깝습니다. Google, Bing 등 주요 크롤러와 대형 아카이브 프로젝트는 지킵니다. 스크레이퍼, 악성 봇, 일부 회색 지대 AI 크롤러는 무시합니다. 실제 접근 제어는 서버 인증이나 엣지에서 IP와 user-agent 차단으로 해야 합니다.
- Disallow와 noindex는 어떻게 다릅니까?
- Disallow는 크롤 자체를 막아 Google이 페이지를 내려받지 않게 합니다. noindex(meta 태그나 HTTP 헤더)는 크롤하더라도 검색 결과에 노출하지 말라는 지시입니다. Disallow된 페이지의 noindex는 Google이 볼 수 없으므로 해당 URL이 여전히 결과에 나타날 수 있습니다.
- robots.txt는 정확히 어디에 올려야 하나요?
- 도메인 루트에 있어야 하며 https://example.com/robots.txt 경로로 제공되어야 합니다. 서브폴더나 서브도메인은 각각 별도 파일이 필요합니다. Next.js는 /public/robots.txt에 두고, Vercel은 프로젝트 루트의 정적 파일도 가능합니다.
- ChatGPT와 Claude가 제 사이트로 학습하지 못하게 하려면?
- User-agent: GPTBot, User-agent: ClaudeBot, User-agent: CCBot, User-agent: anthropic-ai, User-agent: Google-Extended를 각각 추가하고 각 블록에 Disallow: /를 붙이세요. Google-Extended는 학습에서만 제외할 뿐이고, 일반 Googlebot은 계속해서 페이지를 색인합니다.
- Crawl-delay를 Google이 아직 따르나요?
- 따르지 않습니다. Google은 Crawl-delay를 무시하고 Search Console의 크롤 속도 설정을 사용합니다. Bing, Yandex, Yahoo는 여전히 존중합니다. 여기서 지정한 값은 이 크롤러들을 위해 파일에 그대로 남고, Google은 해당 줄을 그냥 건너뜁니다.