AI crawlerをサイトに入れるべきか？この表で3分で決める

Larry

あなたはコンテンツサイト、ナレッジベース、小規模メディアを運営している。ある日、アクセス解析にAI crawlerらしき流量が急に増えた。検索インデックス用だと名乗るものもあれば、ユーザーの代わりにリアルタイムで情報を取りに来るagentのようなものもある。モデル学習にコンテンツを使う可能性があるものもある。

2026年7月1日、CloudflareはPay per crawlをPay per useへ進めると発表した。AIがコンテンツを取得したときだけでなく、そのコンテンツがAIの回答に現れ、AI製品の価値を作ったときも、支払いとライセンスの議論に入るという考え方だ。さらにCloudflareは、9月15日以降、新規顧客と既存顧客の新しいドメインでは、広告を含むページについて学習用途とagent用途をデフォルトでブロックすると説明した。検索、学習、agent用途を明確に分けないcrawlerも、より厳しいデフォルト処理の対象になる。表面上はサービス側のポリシー更新に見えるが、コンテンツサイトにとってより大きな示唆は別にある。すべてのAI botを同じ種類の流量として扱う時代ではなくなった、ということだ。

「AIをブロックすべきか」とだけ聞くと、答えはたいてい詰まる。実務で使える問いはこうだ。どの種類のcrawlerが、何の用途で、どのコストを払ってサイトに入り、問題が起きたとき誰が責任を持つのか。

このレッスンで扱うこと:

AI crawlerを検索、agent、学習の3つのアクセス場面に分ける。
1枚の判断表で、許可、観察、課金、ブロックを決める。
法務、エンジニア、コンテンツチームが全員そろうのを待たず、ポリシーの初版を作る。

まず分ける：AI crawlerは1種類ではない

crawlerは、まず「Webサイトの内容を自動で読み取るプログラム」と理解すればよい。以前なら主な相手は検索エンジンのbotだった。ページを取得し、インデックスを作り、あとで読者をあなたのサイトへ戻してくれる。

AI crawlerが厄介なのは、用途が分岐し始めたことだ。

検索型crawler：あなたのコンテンツをAI検索や要約結果に出すことを目的にする。
agent型crawler：agentは「いくつかの作業を自分で連続実行するAI助手」と考えればよい。ユーザーの代わりにページを読み、価格を比較し、仕様を調べ、答えを整理することがある。
学習型crawler：コンテンツをモデル学習やデータセットに取り込むことを目的にする。必ずしも判別できる読者流入を返すとは限らない。

この3種類の流量は、サイトにとっての価値もリスクも違う。すべてを同じルールに入れると、2つの悪い結果が起きる。入ってきてよい検索露出を止めてしまう一方で、本来はライセンスや制限を話すべき学習用途のアクセスを黙って許してしまう。

BMCでは以前、agentic webには機械が読める入口と検収条件が必要だと扱った。サイトが入口ルールを明確に書かなければ、AIツールは推測するしかない。この話は、〈agentをサイトに入れる前に、機械が読めるドアを用意する〉とあわせて読むとよい。前者は「誰を入口に入れるか」を扱い、この記事は「入った後、それを何の用途と数えるか」を扱う。

AI crawlerアクセス方針の表

下の表は、最初から完璧な制度を作るためのものではない。「デフォルトの反応」を感情からポリシーに変えるためのものだ。各行は、robots.txt、WAFルール、Bot管理設定、契約条項、社内処理フローに変換できる。

crawlerの種類	許可条件	課金またはライセンス条件	先にブロックすべきシグナル	最初に測る指標
検索インデックス型	用途が検索またはインデックスだと明示されている。判別できるreferralを返す。取得頻度が通常の検索botの2倍を超えない	要約ページがクリックを大きく置き換え、30日間のAI referralがコンテンツページ総訪問の1%未満なら、商談対象にする	User-Agentが不透明、IPの出所が頻繁に変わる、短時間で過去記事を全サイト規模で走査する	週次AI referral、取得されたページ数、サーバーコスト
agentリアルタイム読み取り型	公開ページだけを読む。ログイン、注文、フォーム送信をしない。エンドユーザーごとのリクエストを制限できる	agentが大量のリアルタイムデータ、価格、在庫、専門データベース内容を読む必要がある場合は、APIまたは有料プランを求める	ログイン壁の回避を試みる、検索ページを連続実行する、フォーム送信やユーザー操作の模倣をする	日次リクエストピーク、エラー率、触れられたセンシティブなパス
学習またはデータセット型	公開ライセンス、明確なopt-in、または再利用可能なコンテンツである場合だけ許可する	オリジナル記事、有料コンテンツ、データベース、調査レポートは、原則としてライセンスまたは支払いを求める	用途を説明しない、学習と検索を同じbotに混ぜる、削除や退出の方法を提供できない	取得された文字数、重複取得率、ライセンス問い合わせへの返信率
内部または提携先bot	固定IP、明確な担当窓口、テスト流量と本番流量の分離がある	検索露出から学習データ利用へ変わるなど、元の提携範囲を超える場合は再承認する	ownerがいない、変更通知がない、流量が急増しても誰も認めない	提携先リクエスト量、異常通知への返信時間

この表の要点は、「用途」を第一層に置くことだ。技術名だけを見てはいけない。User-Agentは偽装でき、IPも変わる。しかしポリシーがまず答えるべき問いはこうだ。このアクセス行為は、サイトにとってどんな交換関係なのか。

見つけてもらう助けになるなら、見るべきは露出の質とコストだ。
ユーザーの代わりにリアルタイムでデータを読むなら、見るべきはレート制限、権限、操作境界だ。
コンテンツを学習に使うなら、見るべきはライセンス、補償、退出手段だ。

文字版の判断ツリーで一度走らせる

まだcrawlerポリシーがないチームなら、最初から完全な規約を書く必要はない。次の順番で進めればよい。

このcrawlerは用途を明確に説明しているか。
- している：次の問いへ進む。
- していない：用途、連絡先、退出方法を提供できるまで、観察またはブロックリストに入れる。
用途は検索、agentのリアルタイム読み取り、学習のどれか。
- 検索：本当に判別できる流入を返しているか確認する。
- agent：公開データだけを読み、ログイン、フォーム、取引を触っていないか確認する。
- 学習：コンテンツライセンスと商業的交換が成立しているか確認する。
測定できるコストを生んでいるか。
- 例：1日のリクエスト量が通常bot平均の2倍を超える、エラー率が上がる、キャッシュヒット率が下がる、検索ページが大量に走査される。
- コストがある：レート制限、課金、API、または人による審査へ切り替える。
- コストがない：いったん観察を続ける。ただし30日後の見直しを設定する。
高価値コンテンツに触れているか。
- 例：有料記事、会員データ、独自調査、商品データベース、講座内容、価格ページ、在庫ページ。
- 触れている：学習と大量読み取りは、原則として無料開放しない。
- 触れていない：比較的ゆるいポリシーでもよい。ただしlogは残す。
このルールにownerはいるか。
- ownerとは、最後の判断と後始末に責任を持つ人だ。ownerのないポリシーは、すぐに誰も維持しないブロックリストになる。
- 少なくともコンテンツownerを1人、技術ownerを1人指定し、いつ再評価するかを書いておく。

このツリーの使い方は単純だ。急いで「全面許可」か「全面ブロック」を選ばない。まずcrawlerを正しい場面に置き、それから許可、観察、課金、ブロックを決める。

小規模コンテンツサイトの初版ポリシー

小さなチームで、専任の法務担当者やインフラ担当者がいないなら、まず4つだけやればよい。

1. 3つの用途についてデフォルトの立場を書く

次のように一文で明確にする。

検索インデックス：許可してよい。ただし出所を識別でき、頻度を制御できること。
agentリアルタイム読み取り：公開ページは読める。ただしユーザーの代わりにセンシティブな操作を実行してはならない。
学習利用：オリジナルコンテンツは、原則として明確なライセンスが必要。

この3文は、まず社内文書に置けばよい。すぐ公開する必要はない。ただ、チーム内で合意があれば、新しいbotに出会うたびに同じ議論をやり直さずに済む。

2. 高価値パスを列挙する

いきなり全サイトルールから始めない。まず高価値パスを列挙する。

/members/：会員コンテンツ。
/courses/：講座ページ。
/pricing/：価格とプラン。
/research/：独自調査またはデータベース。
サイト内検索ページ、絞り込みページ、API的な検索ページ。

APIは「システム同士がデータを交換するインターフェース」と理解すればよい。あるページが実質的にAPIのように大量照会されているなら、crawlerに自由にページを走査させるのではなく、API、レート制限、ライセンスで扱うべきだ。

3. 「コンテンツが見える」と「大量取得できる」を分ける

公開ページであることは、人間の読者が読めるという意味だ。機械が無制限に大量取得してよい、という意味ではない。この違いをポリシーに書く必要がある。

社内原則として、次の文を使える。

公開閲覧は、自動化された大量取得と同じではない。大量取得には用途説明、頻度制限の順守、高価値コンテンツでの追加ライセンスが必要である。

この文は、コンテンツチームとエンジニアリングチームの足並みをそろえるのにも役立つ。コンテンツチームが気にするのは価値とライセンスで、エンジニアリングチームが気にするのは流量と安定性だ。同じ原則で両者をつなげられる。

4. 30日の見直し点を置く

初版ポリシーを永遠に固定してはいけない。30日ごとに、次の5つの数字を見ると決めておく。

AI crawlerの総リクエスト量。
上位10 crawlerの用途分類。
AI referralまたは判別できる回流。
高価値パスが取得された回数。
crawlerによるエラー率、コスト、問い合わせ問題。

あるcrawlerが判別できる読者を連れてきて、コストが低く、用途も明確なら、許可を維持できる。大量の資源を消費し、用途が曖昧で、高価値コンテンツにも触れているなら、デフォルトの善意だけに任せるべきではない。

よくある失敗：すべてのAI流量を1つのスイッチに押し込む

最も事故が起きやすいのは、管理画面で「AI crawler」を見つけて、総合スイッチを1つ作ることだ。これでは3つの違う問題が混ざる。

露出の問題：AI検索に見つけてもらいたいか。
操作の問題：agentにページを読ませ、データを調べさせ、ユーザーの手順を進めさせてよいか。
ライセンスの問題：自分のコンテンツを学習やデータセット構築に使わせてよいか。

この3問の答えは、完全に違っていてよい。検索型crawlerには公開記事を読ませたいかもしれない。読者を連れてくる可能性があるからだ。agentにはFAQを読ませてもよいが、会員エリアへのログインやフォーム送信はさせたくないかもしれない。同時に、学習型crawlerには先にライセンス交渉を求めるかもしれない。

すでにAIコンテンツのノイズ処理に取り組んでいるサイトなら、〈情報の入口と出典ルールでAIコンテンツのノイズを処理する〉も参考になる。入口ルールとcrawlerポリシーは一組だ。前者は何を受け取るかを決め、後者は自分のコンテンツが機械にどう使われるかを決める。

いつ課金すべきか

課金はすべてのサイトに必要なわけではないし、すぐ実行できるとも限らない。実務的な判準はこうだ。crawlerの用途が「あなたを見つけやすくする」を超え、あなたのコンテンツ資産やインフラを消費しているなら、課金またはライセンスの話に入るべきだ。

次の3問で判断できる。

相手はあなたのコンテンツを使って、自分のプロダクト価値を作っているか。
- 例：要約回答、学習データ、データベース再構成、リアルタイムQ&A。
あなたは対等な見返りを得ているか。
- 例：判別できる流入、ブランド露出、ライセンス料、提携データ、API利用料。
あなたは追加コストを負担しているか。
- 例：サーバー負荷、キャッシュ圧力、コンテンツの置き換え、問い合わせでの誤解、ライセンスリスク。

3問のうち2問が「はい」なら、それを一般的なbot流量として扱わない方がよい。このときの選択肢は、レート制限、登録要求、API経由への変更、商用ライセンス、有料クロール、または相手が用途説明を出すまでブロックすることだ。

今日できる最初の一歩

今日1つだけやるなら、完全なツール一覧を追いかけない。まず文書を1つ開き、「AI crawler access policy v0.1」と名づけ、次の4段落を書く。

検索インデックス型crawlerを許可する条件。
agentリアルタイム読み取りを許可する境界。
学習型crawlerに対するデフォルトのライセンス立場。
どのパスを高価値コンテンツとし、追加審査が必要か。

そしてownerと30日後の見直し日を指定する。この文書は短くてよい。しかし後続の技術設定に根拠を与える。robots.txt、Bot管理、WAF、API key、有料壁、契約条項はすべて、このポリシーを別の層で実行する方法にすぎない。

本当に厄介なのは、Cloudflareや特定のサービスがどうルールを変えるかではない。コンテンツサイトがこれまで「読めること」と「機械が利用できること」を混ぜて扱ってきたことだ。いま補うべきなのは、長期的に維持できるアクセス方針である。

生活四コマ

コンテンツチームがAI crawlerを検索、agent、学習用途に分けて扱う四格漫画

コンテンツチームは新しいAI crawlerの流入に気づくが、すぐに全面許可や全面ブロックを選ばない。
来訪の目的を、検索露出、agentのリアルタイム読み取り、学習データ利用に分ける。
それぞれの目的に、許可、課金、ブロック、人による確認という境界を置く。
最後に判断をポリシー表へまとめ、次のcrawlerも同じ基準で見られるようにする。

AI整理カード

下の文をAIに渡すと、crawlerポリシーの初版作成を手伝わせることができる。使う前に、括弧内を自分のサイト情報に置き換える。

あなたはコンテンツサイトの技術・コンテンツポリシー顧問である。以下の情報にもとづいて、「AI crawler access policy v0.1」の草案を作ってほしい。

サイト種別：［例：小規模メディア、ナレッジベース、講座サイト、製品ドキュメント、データベース］
高価値コンテンツのパス：［URL pathを列挙。例：/members/、/courses/、/research/］
現在把握しているAI crawler：［名称、User-Agent、流量概況。不明なら不明と書く］
私たちが得たい見返り：［検索露出、referral、ライセンス料、API利用、提携データ］
最も心配しているリスク：［サーバーコスト、コンテンツの置き換え、学習利用、会員コンテンツ流出、フォーム悪用］

出力してほしいもの：
1. 検索インデックス型crawlerの許可条件。
2. agentリアルタイム読み取り型crawlerの許可行為と禁止行為。
3. 学習またはデータセット型crawlerに対するライセンス立場。
4. 先にブロックまたは人による審査に回すべきシグナル。
5. 30日後に見直す5つの指標。

制約：
- 抽象原則だけを書かない。各項目に実行可能な条件を入れる。
- 公開閲覧と自動化された大量取得を区別する。
- 情報が足りない場合は、サイトownerに追加で聞くべき質問を列挙する。

この整理カードの目的は、法律判断を代行することではない。コンテンツ、エンジニアリング、ビジネスの間に散らばった問いを、まず同じリストに並べることだ。リストが形になってから、どれをツールで止めるべきか、どれをライセンスで話すべきか、どれは安心して開けてよいかが見えてくる。

参考資料

Cloudflare Press Release：Cloudflare Allows the Agentic Internet to Flourish with a Simple Philosophy: Your Content, Your Rules — https://www.cloudflare.com/press/press-releases/2026/cloudflare-allows-the-agentic-internet-to-flourish-with-a-simple-philosophy-your-content-your-rules/（2026-07-01）

TechCrunch：Cloudflare’s new policy pushes AI companies to pay for publishers’ content — https://techcrunch.com/2026/07/01/cloudflares-new-policy-pushes-ai-companies-to-pay-for-publishers-content/（2026-07-01）

Help Net Security：Cloudflare changes AI crawler access rules — https://www.helpnetsecurity.com/2026/07/02/cloudflare-ai-crawler-controls/（2026-07-02）

Cloudflare Blog：Introducing pay per crawl — https://blog.cloudflare.com/introducing-pay-per-crawl/（2025-07-01、per-crawlの仕組みの背景）