AI crawler를 사이트에 들여보낼까? 이 표로 3분 만에 결정하기

Larry

콘텐츠 사이트, 지식베이스, 소규모 미디어를 운영하고 있다고 해보자. 어느 날 트래픽 리포트에 갑자기 AI crawler가 늘어난다. 어떤 것은 검색 색인용이라고 말하고, 어떤 것은 사용자를 대신해 실시간으로 자료를 가져오는 agent처럼 보이며, 어떤 것은 콘텐츠를 모델 학습에 쓰려는 것일 수 있다.

2026년 7월 1일, Cloudflare는 Pay per crawl을 Pay per use로 확장하겠다고 발표했다. AI가 콘텐츠를 가져갈 때만 가격을 매기는 것이 아니라, 그 콘텐츠가 AI 답변에 나타나 AI 제품의 가치를 만들 때도 과금과 라이선스 논의에 들어간다는 뜻이다. 또한 Cloudflare는 9월 15일부터 신규 고객과 기존 고객의 새 도메인에서 광고가 포함된 페이지에 대해 학습 및 agent 용도를 기본 차단하겠다고 설명했다. 검색, 학습, agent 용도를 명확히 분리하지 않는 crawler도 더 엄격한 기본 처리 대상이 된다. 겉으로는 플랫폼 정책 업데이트처럼 보이지만, 콘텐츠 사이트에 더 큰 메시지는 따로 있다. 이제 모든 AI bot을 같은 종류의 트래픽으로 취급할 수 없다는 점이다.

“AI를 막아야 할까?”라고만 물으면 답은 보통 막힌다. 더 실행 가능한 질문은 이것이다. 어떤 crawler가, 어떤 용도로, 어떤 비용을 들여 들어오며, 문제가 생기면 누가 책임지는가?

이번 글에서 다루는 것:

AI crawler를 검색, agent, 학습이라는 세 가지 접근 상황으로 나눈다.
하나의 결정 표로 허용, 관찰, 과금, 차단을 정한다.
법무, 엔지니어링, 콘텐츠 팀이 모두 모일 때까지 기다리지 않고 첫 정책을 만든다.

먼저 구분하기: AI crawler는 한 가지가 아니다

crawler는 “웹사이트 콘텐츠를 자동으로 읽는 프로그램”으로 이해하면 된다. 예전에는 주로 검색엔진 bot을 상대했을 것이다. 검색 bot은 페이지를 가져가 색인을 만들고, 나중에 독자를 다시 당신의 사이트로 데려온다.

AI crawler가 까다로운 이유는 용도가 갈라지기 시작했기 때문이다.

검색형 crawler: 당신의 콘텐츠가 AI 검색이나 요약 결과에 나타나게 하는 것이 목적이다.
agent형 crawler: agent는 “몇 단계의 작업을 스스로 이어서 수행하는 AI 도우미”로 이해하면 된다. 사용자를 대신해 실시간으로 페이지를 읽고, 가격을 비교하고, 사양을 확인하고, 답변을 정리할 수 있다.
학습형 crawler: 콘텐츠를 모델 학습이나 데이터셋에 넣는 것이 목적이다. 반드시 식별 가능한 독자 트래픽을 되돌려주는 것은 아니다.

이 세 가지 트래픽은 사이트에 주는 가치와 위험이 다르다. 전부를 하나의 규칙으로 묶으면 두 가지 나쁜 결과가 생긴다. 들어와야 할 검색 노출은 막히고, 라이선스나 속도 제한을 논의해야 할 학습 접근은 조용히 통과된다.

BMC에서는 이전에 agentic web에는 기계가 읽을 수 있는 입구와 검수 기준이 필요하다고 다룬 적이 있다. 사이트가 입구 규칙을 명확히 써두지 않으면 AI 도구는 추측으로 움직일 수밖에 없다. 이 글은 〈agent를 사이트에 들이기 전, 기계가 읽을 수 있는 문부터 준비하기〉와 함께 보면 좋다. 앞 글이 “누구를 문 안으로 들일 것인가”를 다룬다면, 이 글은 “들어온 뒤 어떤 용도로 볼 것인가”를 다룬다.

AI crawler 접근 정책 표

아래 표의 목적은 한 번에 완벽한 정책을 만드는 것이 아니다. 먼저 “기본 반응”을 감정이 아니라 정책으로 바꾸는 것이다. 각 행은 robots.txt, WAF 규칙, Bot 관리 설정, 계약 조항, 내부 처리 절차로 바꿀 수 있다.

crawler 유형	허용 조건	과금 또는 라이선스 조건	먼저 차단해야 할 신호	첫 번째 측정 지표
검색 색인형	용도가 검색 또는 색인이라고 명확히 표시되어 있다. 식별 가능한 referral을 되돌려줄 수 있다. 크롤링 빈도가 일반 검색 bot의 2배를 넘지 않는다.	요약 페이지가 클릭을 대량으로 대체하고, 30일 안에 AI referral이 콘텐츠 페이지 전체 방문의 1%보다 낮으면 비즈니스 협의 대상으로 옮긴다.	User-Agent가 불투명하다. IP 출처가 자주 바뀐다. 짧은 시간 안에 오래된 전체 사이트 글을 훑는다.	주간 AI referral, 크롤링된 페이지 수, 서버 비용
agent 실시간 읽기형	공개 페이지만 읽는다. 로그인, 주문, 양식 제출을 하지 않는다. 최종 사용자 1명이 유발한 요청을 속도 제한할 수 있다.	agent가 데이터, 가격, 재고, 전문 데이터베이스 콘텐츠를 대량으로 실시간 읽어야 한다면 API 또는 유료 플랜을 요구한다.	로그인 장벽을 우회하려 한다. 검색 페이지를 연속 호출한다. 양식을 제출하거나 사용자 행동을 흉내 낸다.	일일 요청 피크, 오류율, 호출된 민감 경로
학습 또는 데이터셋형	이미 공개 라이선스가 있거나, 명확한 opt-in이 있거나, 원래 재사용 가능한 콘텐츠일 때만 허용한다.	원문 기사, 유료 콘텐츠, 데이터베이스, 연구 보고서는 기본적으로 라이선스 또는 과금을 요구한다.	용도를 설명하지 않는다. 학습과 검색을 같은 bot에 섞는다. 삭제 또는 opt-out 방법을 제공하지 못한다.	크롤링된 글자 수, 반복 크롤링 비율, 라이선스 회신율
내부 또는 파트너 bot	고정 IP가 있다. 명확한 담당 창구가 있다. 테스트 트래픽과 운영 트래픽이 분리되어 있다.	검색 노출에서 학습 데이터로 바뀌는 등 기존 협력 범위를 넘으면 다시 승인받는다.	owner가 없다. 변경 공지가 없다. 트래픽이 급증했는데 인정하는 사람이 없다.	파트너 요청량, 이상 알림 회신 시간

이 표의 핵심은 기술적 이름보다 “용도”를 첫 번째 층에 두는 것이다. User-Agent는 위장될 수 있고 IP도 바뀔 수 있다. 그래도 정책은 먼저 이 질문에 답해야 한다. 이 접근 행위는 사이트와 어떤 교환 관계를 맺는가?

당신이 발견되도록 돕는다면 핵심은 노출 품질과 비용이다.
사용자를 대신해 실시간으로 데이터를 읽는다면 핵심은 속도 제한, 권한, 작업 경계다.
콘텐츠를 학습에 쓴다면 핵심은 라이선스, 보상, opt-out 메커니즘이다.

텍스트 결정 트리로 한 번 돌려보기

아직 crawler 정책이 없는 팀이라면 아래 순서대로 진행하면 된다. 처음부터 완전한 규정을 쓸 필요는 없다.

이 crawler가 용도를 명확히 설명하는가?
- 그렇다: 다음 질문으로 간다.
- 아니다: 상대가 용도, 연락처, opt-out 방법을 제공할 때까지 관찰 또는 차단 목록에 넣는다.
용도가 검색인가, agent의 실시간 읽기인가, 학습인가?
- 검색: 실제로 식별 가능한 트래픽을 되돌려주는지 확인한다.
- agent: 공개 데이터만 읽는지, 로그인, 양식, 거래를 건드리지 않는지 확인한다.
- 학습: 콘텐츠 라이선스와 상업적 교환이 성립하는지 확인한다.
측정 가능한 비용을 일으키는가?
- 예: 일일 요청량이 평소 bot 평균의 2배를 넘는다. 오류율이 증가한다. 캐시 적중률이 떨어진다. 검색 페이지가 대량으로 스캔된다.
- 비용이 있다: 속도 제한, 과금, API, 수동 심사로 바꾼다.
- 비용이 없다: 우선 관찰로 두되, 30일 뒤 다시 보도록 설정한다.
고가치 콘텐츠에 닿는가?
- 예: 유료 글, 회원 자료, 원천 연구, 제품 데이터베이스, 강의 콘텐츠, 가격 또는 재고 페이지.
- 그렇다: 학습과 대량 읽기는 기본적으로 무료 개방하지 않는다.
- 아니다: 더 느슨한 정책을 쓸 수 있지만 log는 남긴다.
이 규칙에 owner가 있는가?
- owner는 마지막 판단과 마무리를 책임지는 사람이다. owner가 없는 정책은 곧 아무도 관리하지 않는 차단 목록이 된다.
- 최소한 콘텐츠 owner 1명, 기술 owner 1명을 지정하고 언제 재평가할지 적는다.

이 결정 트리의 사용법은 단순하다. 급하게 “전면 허용”이나 “전면 차단”을 먼저 고르지 않는다. crawler를 올바른 상황에 넣은 뒤, 허용, 관찰, 과금, 차단을 결정한다.

소규모 콘텐츠 사이트의 첫 정책

소규모 팀이고 전담 법무나 인프라 담당자가 없다면 먼저 4가지만 해도 된다.

1. 세 가지 용도에 대한 기본 입장 쓰기

한 문장씩 명확히 적는다.

검색 색인: 허용할 수 있지만 출처를 식별할 수 있어야 하고 빈도를 통제해야 한다.
agent 실시간 읽기: 공개 페이지는 읽을 수 있지만 사용자를 대신해 민감한 작업을 수행해서는 안 된다.
학습 사용: 원천 콘텐츠는 기본적으로 명확한 라이선스가 필요하다.

이 세 문장은 우선 내부 문서에 넣어도 된다. 바로 공개할 필요는 없다. 하지만 팀에 공감대가 생기면 새 bot을 만날 때마다 같은 논쟁을 반복하지 않아도 된다.

2. 고가치 경로를 목록으로 만들기

처음부터 전체 사이트 규칙을 만들지 말고, 먼저 고가치 경로를 적는다.

/members/: 회원 콘텐츠.
/courses/: 강의 페이지.
/pricing/: 가격과 플랜.
/research/: 원천 연구 또는 데이터베이스.
사이트 내부 검색 페이지, 필터 페이지, API-like 조회 페이지.

API는 “시스템과 시스템이 데이터를 주고받는 인터페이스”로 이해하면 된다. 어떤 페이지가 사실상 API처럼 대량 조회되고 있다면, crawler가 자유롭게 페이지를 훑게 둘 것이 아니라 API, 속도 제한, 라이선스로 처리해야 한다.

3. “콘텐츠가 보이는 것”과 “대량으로 가져갈 수 있는 것”을 분리하기

공개 페이지라는 말은 인간 독자가 볼 수 있다는 뜻이지, 기계가 무제한으로 대량 수집해도 된다는 뜻은 아니다. 이 차이를 정책에 써야 한다.

내부 원칙으로는 이 문장을 쓸 수 있다.

공개 열람은 자동화된 대량 수집과 같지 않다. 대량 수집에는 용도 설명, 빈도 제한 준수, 고가치 콘텐츠에 대한 별도 라이선스가 필요하다.

이 문장은 콘텐츠 팀과 엔지니어링 팀을 맞추는 데도 도움이 된다. 콘텐츠 팀은 가치와 라이선스를 신경 쓰고, 엔지니어링 팀은 트래픽과 안정성을 신경 쓴다. 같은 원칙으로 두 쪽을 연결할 수 있다.

4. 30일 회고 지점 만들기

첫 정책을 영구 규칙처럼 쓰지 않는다. 30일마다 아래 5개 숫자를 보도록 설정한다.

AI crawler 전체 요청량.
상위 10개 crawler의 용도 분류.
AI referral 또는 식별 가능한 유입.
고가치 경로가 크롤링된 횟수.
crawler 때문에 생긴 오류율, 비용, 고객지원 문제.

어떤 crawler가 식별 가능한 독자를 데려오고, 비용이 낮고, 용도가 명확하다면 허용을 유지할 수 있다. 반대로 많은 자원을 쓰고, 용도가 모호하며, 고가치 콘텐츠까지 건드린다면 기본 선의에만 기대서는 안 된다.

흔한 실수: 모든 AI 트래픽을 하나의 스위치에 넣기

가장 문제가 되기 쉬운 방식은 관리자 화면에서 “AI crawler”를 보고 하나의 전체 스위치를 켜는 것이다. 그러면 서로 다른 세 문제가 뒤섞인다.

노출 문제: AI 검색에서 발견되고 싶은가?
작업 문제: agent가 페이지를 읽고, 데이터를 조회하고, 사용자를 대신해 절차를 밟게 할 수 있는가?
라이선스 문제: 내 콘텐츠가 학습이나 데이터셋 구축에 쓰여도 되는가?

이 세 질문의 답은 완전히 다를 수 있다. 검색형 crawler가 공개 글을 읽는 것은 허용할 수 있다. 독자를 데려올 가능성이 있기 때문이다. agent가 FAQ를 읽는 것도 허용할 수 있지만, 회원 구역에 로그인하거나 양식을 제출하게 해서는 안 될 수 있다. 동시에 학습형 crawler에는 먼저 라이선스를 논의하라고 요구할 수 있다.

사이트가 이미 AI 콘텐츠 잡음을 처리하고 있다면 〈정보 입구와 출처 규칙으로 AI 콘텐츠 잡음 처리하기〉도 참고할 수 있다. 입구 규칙과 crawler 정책은 한 쌍이다. 전자는 어떤 콘텐츠를 받아들일지 정하고, 후자는 당신의 콘텐츠가 기계에 의해 어떻게 사용될지 정한다.

언제 과금해야 할까?

과금은 모든 사이트가 해야 하는 것도 아니고, 즉시 가능한 것도 아니다. 더 현실적인 기준은 이렇다. crawler의 용도가 “당신이 발견되도록 돕는 것”을 넘어 당신의 콘텐츠 자산이나 인프라를 소비하기 시작했다면 과금 또는 라이선스 논의로 들어가야 한다.

세 가지 질문으로 판단할 수 있다.

제품 가치: 상대가 당신의 콘텐츠로 자기 제품의 가치를 만들고 있는가?
- 예: 요약 답변, 학습 데이터, 데이터베이스 재구성, 실시간 Q&A.
상응 보상: 당신은 그에 상응하는 보상을 받고 있는가?
- 예: 식별 가능한 트래픽, 브랜드 노출, 라이선스 비용, 협력 데이터, API 사용료.
추가 비용: 당신이 추가 비용을 부담하고 있는가?
- 예: 서버 부하, 캐시 압박, 콘텐츠 대체, 고객지원 오해, 라이선스 위험.

세 질문 중 두 개에 “그렇다”라고 답한다면 일반 bot 트래픽으로만 봐서는 안 된다. 이때 선택지는 속도 제한, 등록 요구, API 전환, 상업 라이선스, 유료 crawl, 또는 상대가 용도를 설명할 때까지 차단하는 것이다.

오늘 바로 할 수 있는 첫 단계

오늘 한 가지만 할 수 있다면 완전한 도구 목록부터 쫓지 말자. 먼저 문서를 하나 열고 이름을 “AI crawler access policy v0.1”로 붙인 뒤, 네 단락을 적는다.

검색 색인: 우리가 검색 색인형 crawler를 허용하는 조건.
agent 경계: 우리가 agent 실시간 읽기를 허용하는 경계.
학습 라이선스: 학습형 crawler에 대한 우리의 기본 라이선스 입장.
고가치 경로: 어떤 경로가 고가치 콘텐츠라서 추가 심사가 필요한지.

그다음 owner와 30일 회고 날짜를 지정한다. 이 문서는 짧아도 된다. 하지만 이후 기술 설정의 근거가 된다. robots.txt, Bot 관리, WAF, API key, 유료 벽, 계약 조항은 모두 이 정책을 서로 다른 층에서 실행하는 방식일 뿐이다.

정말 까다로운 문제는 Cloudflare나 특정 플랫폼 하나가 규칙을 어떻게 바꾸느냐가 아니다. 콘텐츠 사이트가 그동안 “읽을 수 있음”과 “기계가 가져가도 됨”을 같은 것으로 취급해왔다는 점이다. 지금 보완해야 할 것은 오래 유지할 수 있는 접근 정책이다.

생활 4컷 만화

콘텐츠 팀이 AI crawler를 검색, agent, 학습 용도로 나누는 네 컷 만화

콘텐츠 팀은 새로운 AI crawler가 들어온 것을 보고도 곧바로 전면 허용이나 전면 차단을 선택하지 않는다.
먼저 방문 목적을 검색 노출, agent의 실시간 읽기, 학습 데이터 사용으로 나눈다.
각 목적에 맞춰 허용, 과금, 차단, 사람의 확인이라는 경계를 붙인다.
마지막에는 판단을 정책 표로 정리해 다음 crawler도 같은 기준으로 살펴볼 수 있게 한다.

AI 정리 카드

아래 문단을 AI에 넘겨 첫 번째 crawler 정책을 만들게 할 수 있다. 사용하기 전에 괄호 안 내용을 당신의 사이트 정보로 바꿔라.

당신은 콘텐츠 사이트의 기술 및 콘텐츠 정책 컨설턴트입니다. 아래 정보를 바탕으로 “AI crawler access policy v0.1” 초안을 작성해 주세요.

사이트 유형: [예: 소규모 미디어, 지식베이스, 강의 사이트, 제품 문서, 데이터베이스]
고가치 콘텐츠 경로: [URL path를 나열하세요. 예: /members/, /courses/, /research/]
현재 알고 있는 AI crawler: [이름, User-Agent, 트래픽 개요를 적으세요. 모르면 알 수 없음이라고 쓰세요]
우리가 얻고 싶은 보상: [검색 노출, referral, 라이선스 비용, API 사용, 협력 데이터]
우리가 가장 걱정하는 위험: [서버 비용, 콘텐츠 대체, 학습 사용, 회원 콘텐츠 유출, 양식 남용]

출력해 주세요:
1. 검색 색인형 crawler의 허용 조건.
2. agent 실시간 읽기형 crawler의 허용 및 금지 행동.
3. 학습 또는 데이터셋형 crawler에 대한 라이선스 입장.
4. 먼저 차단하거나 수동 심사해야 하는 신호.
5. 30일 뒤 다시 봐야 할 5개 지표.

제한:
- 추상 원칙만 쓰지 말고, 각 항목에 실행 가능한 조건을 넣어 주세요.
- 공개 열람과 자동화된 대량 수집을 구분해 주세요.
- 정보가 부족하다면 사이트 owner에게 추가로 물어야 할 질문을 나열해 주세요.

이 정리 카드의 목적은 법률 판단을 대신하는 것이 아니다. 콘텐츠, 엔지니어링, 비즈니스 사이에 흩어져 있던 문제를 먼저 같은 목록에 올려놓는 것이다. 목록이 만들어져야 무엇은 도구로 막아야 하는지, 무엇은 라이선스로 논의해야 하는지, 무엇은 안심하고 열어도 되는지 알 수 있다.

참고 자료

Cloudflare Press Release：Cloudflare Allows the Agentic Internet to Flourish with a Simple Philosophy: Your Content, Your Rules — https://www.cloudflare.com/press/press-releases/2026/cloudflare-allows-the-agentic-internet-to-flourish-with-a-simple-philosophy-your-content-your-rules/（2026-07-01）

TechCrunch：Cloudflare’s new policy pushes AI companies to pay for publishers’ content — https://techcrunch.com/2026/07/01/cloudflares-new-policy-pushes-ai-companies-to-pay-for-publishers-content/（2026-07-01）

Help Net Security：Cloudflare changes AI crawler access rules — https://www.helpnetsecurity.com/2026/07/02/cloudflare-ai-crawler-controls/（2026-07-02）

Cloudflare Blog：Introducing pay per crawl — https://blog.cloudflare.com/introducing-pay-per-crawl/（2025-07-01, per-crawl 메커니즘 배경）