Robots.txt 생성기이란?

검색 엔진 크롤러가 웹사이트에 접근하는 방식을 제어하는 올바른 형식의 robots.txt 파일을 생성합니다. User-Agent 규칙 추가, 허용/차단 경로 설정, 크롤 지연 시간 설정, 사이트맵 참조 포함을 파일을 직접 작성하지 않고도 할 수 있습니다.

user-agent 블록은 필요한 만큼 추가할 수 있습니다. *(모든 봇)용 하나, Googlebot, Bingbot, AhrefsBot, GPTBot 같은 각 봇용으로 별도 블록을 만들면 됩니다. 각 블록에 여러 개의 Allow와 Disallow 경로를 넣을 수 있고, 초 단위 Crawl-delay 값도 선택적으로 추가됩니다. Sitemap URL은 파일 끝에 별도 줄로 출력됩니다. 결과 텍스트를 그대로 도메인의 /robots.txt 위치에 올리면 됩니다.

사용 방법

  1. User-Agent 규칙(예: Googlebot, Bingbot 또는 모든 크롤러를 위한 *)을 추가하고 허용 또는 차단할 경로를 지정하세요.
  2. 선택적으로 크롤 지연 값을 설정하고 사이트맵 URL을 추가하세요.
  3. 생성된 robots.txt 파일을 복사하거나 다운로드하여 사이트 루트 디렉토리에 업로드하세요.

사용 시기

  • AI 학습 크롤러(GPTBot, ClaudeBot, CCBot, Google-Extended)가 콘텐츠를 가져가지 못하게 막을 때.
  • 관리자 페이지, 내부 검색, 스테이징, 중복 콘텐츠 경로를 검색엔진 색인에서 빼고 싶을 때.
  • 사이트 이전 시 새 sitemap으로 크롤러를 안내하거나, 리뉴얼 동안 일시적으로 전체를 막을 때.

결과

모든 크롤러에 사이트 접근을 허용하되 /admin/과 /api/ 경로는 차단하고, https://example.com/sitemap.xml에 사이트맵을 지정하는 규칙을 만드세요.

자주 묻는 질문

robots.txt가 실제로 봇을 막아 주나요, 아니면 그냥 부탁인가요?
자발적으로 따르는 약속에 가깝습니다. Google, Bing 등 주요 크롤러와 대형 아카이브 프로젝트는 지킵니다. 스크레이퍼, 악성 봇, 일부 회색 지대 AI 크롤러는 무시합니다. 실제 접근 제어는 서버 인증이나 엣지에서 IP와 user-agent 차단으로 해야 합니다.
Disallow와 noindex는 어떻게 다릅니까?
Disallow는 크롤 자체를 막아 Google이 페이지를 내려받지 않게 합니다. noindex(meta 태그나 HTTP 헤더)는 크롤하더라도 검색 결과에 노출하지 말라는 지시입니다. Disallow된 페이지의 noindex는 Google이 볼 수 없으므로 해당 URL이 여전히 결과에 나타날 수 있습니다.
robots.txt는 정확히 어디에 올려야 하나요?
도메인 루트에 있어야 하며 https://example.com/robots.txt 경로로 제공되어야 합니다. 서브폴더나 서브도메인은 각각 별도 파일이 필요합니다. Next.js는 /public/robots.txt에 두고, Vercel은 프로젝트 루트의 정적 파일도 가능합니다.
ChatGPT와 Claude가 제 사이트로 학습하지 못하게 하려면?
User-agent: GPTBot, User-agent: ClaudeBot, User-agent: CCBot, User-agent: anthropic-ai, User-agent: Google-Extended를 각각 추가하고 각 블록에 Disallow: /를 붙이세요. Google-Extended는 학습에서만 제외할 뿐이고, 일반 Googlebot은 계속해서 페이지를 색인합니다.
Crawl-delay를 Google이 아직 따르나요?
따르지 않습니다. Google은 Crawl-delay를 무시하고 Search Console의 크롤 속도 설정을 사용합니다. Bing, Yandex, Yahoo는 여전히 존중합니다. 여기서 지정한 값은 이 크롤러들을 위해 파일에 그대로 남고, Google은 해당 줄을 그냥 건너뜁니다.

관련 도구