你經營一個內容網站、知識庫或小型媒體。某天流量報表突然多出一批 AI crawler:有些說自己是搜尋索引用,有些像是替使用者即時抓資料的 agent,有些則可能把內容拿去訓練模型。

2026 年 7 月 1 日,Cloudflare 宣布把 Pay per crawl 往 Pay per use 推進:內容不只是被 AI 抓取時有價格,而是當內容實際出現在 AI 回答裡、替 AI 產品創造價值時也要進入付費與授權討論。Cloudflare 同時表示,自 9 月 15 日起,新客戶與既有客戶的新站點若是含廣告頁面,預設設定會封鎖訓練與 agent 用途;若 crawler 沒有清楚分開搜尋、訓練與 agent 用途,也會被納入更嚴格的預設處理。這件事表面上是平台政策更新,但對內容網站更大的提醒是:你不能再把所有 AI bot 都當成同一種流量。

如果只問「要不要擋 AI?」答案通常會卡住。比較能落地的問題是:哪一種 crawler、為了什麼用途、用什麼成本進站、出了問題誰負責?

本課重點:

  1. 把 AI crawler 拆成三種存取情境:搜尋、agent、訓練。
  2. 用一張決策表決定允許、觀察、收費或封鎖。
  3. 把政策落成第一版,不等法務、工程與內容團隊全部到齊才開始。

先分清楚:AI crawler 不是一種東西

crawler 可以先理解成「會自動讀取網站內容的程式」。以前你可能主要面對搜尋引擎 bot:它來抓頁面、建立索引,之後把讀者帶回你的網站。

AI crawler 的麻煩在於用途開始分岔:

  • 搜尋型 crawler:目標是讓你的內容出現在 AI 搜尋或摘要結果裡。
  • agent 型 crawler:agent 可先理解成「會自己連續執行幾步任務的 AI 助手」。它可能替使用者即時讀你的頁面、比價、查規格、整理答案。
  • 訓練型 crawler:目標是把內容納入模型訓練或資料集,未必會帶回可辨識的讀者流量。

這三種流量對網站的價值與風險不同。如果你把它們全部放在同一條規則裡,就會出現兩種壞結果:該進來的搜尋曝光被擋掉,該談授權或限流的訓練存取卻被默默放行。

BMC 之前談過,agentic web 需要機器可讀的入口與驗收門檻;如果網站沒有寫清楚入口規則,AI 工具就只能用猜的。你可以把這篇和〈讓 agent 進網站前,先準備機器可讀的門〉一起看:前者處理「讓誰進門」,這篇處理「進門後算什麼用途」。

一張 AI crawler 存取政策表

下面這張表不是要你一次做到完美,而是先把「預設反應」從情緒改成政策。每一列都可以轉成 robots.txt、WAF 規則、Bot 管理設定、合約條款或內部處理流程。

crawler 類型允許條件收費或授權條件應該先封鎖的訊號第一個可量測指標
搜尋索引型明確標示用途為搜尋或索引;能帶回可辨識 referral;抓取頻率不超過一般搜尋 bot 的 2 倍若摘要頁大量替代點擊,且 30 天內 AI referral 低於內容頁總訪問的 1%,改列入商務洽談User-Agent 不透明、IP 來源頻繁更換、短時間掃完整站舊文每週 AI referral、被抓取頁數、伺服器成本
agent 即時讀取型只讀公開頁面;不登入、不下單、不提交表單;每位終端使用者觸發的請求可被限流若 agent 需要大量即時讀取資料、價格、庫存、專業資料庫內容,要求 API 或付費方案嘗試繞過登入牆、連續觸發搜尋頁、送出表單或模擬使用者操作每日請求峰值、錯誤率、被觸發的敏感路徑
訓練或資料集型只在已有公開授權、明確 opt-in 或內容本來就可再利用時允許原創文章、付費內容、資料庫、研究報告,預設要求授權或付費未說明用途、把訓練與搜尋混在同一 bot、無法提供刪除或退出方式被抓取字數、重複抓取比例、授權回覆率
內部或合作夥伴 bot有固定 IP、明確負責窗口、測試與正式流量分開超出原合作範圍,例如從搜尋曝光改成訓練資料,重新簽核沒有 owner、沒有變更通知、流量暴增但沒有人承認合作方請求量、異常通知回覆時間

這張表的重點是把「用途」放在第一層,而非只看技術名稱。User-Agent 可以偽裝,IP 也會變;但你的政策應該先回答:這個存取行為對網站的交換關係是什麼?

  • 如果它幫你被找到,重點是曝光品質與成本。
  • 如果它替使用者即時讀資料,重點是限流、權限與操作邊界。
  • 如果它把內容拿去訓練,重點是授權、補償與退出機制。
廣告

用文字版決策樹跑一次

如果你的團隊還沒有 crawler 政策,可以照這個順序走,不必一開始就寫完整規章。

  1. 這個 crawler 是否明確說明用途?

    • 有:進下一題。
    • 沒有:先放進觀察或封鎖清單,直到對方能提供用途、聯絡方式與退出方式。
  2. 它的用途是搜尋、agent 即時讀取,還是訓練?

    • 搜尋:檢查是否真的帶回可辨識流量。
    • agent:檢查是否只讀公開資料,且不觸發登入、表單或交易。
    • 訓練:檢查內容授權與商業交換是否成立。
  3. 它是否造成可量測成本?

    • 例如:單日請求量超過平常 bot 平均的 2 倍、錯誤率增加、快取命中率下降、搜尋頁被大量掃描。
    • 有成本:改成限流、收費、API 或人工審核。
    • 沒成本:先保留觀察,但設定 30 天後回看。
  4. 它是否碰到高價值內容?

    • 例如:付費文章、會員資料、原創研究、產品資料庫、課程內容、價格或庫存頁。
    • 有:預設不免費開放訓練與大量讀取。
    • 沒有:可用較寬鬆政策,但仍要留 log。
  5. 這條規則有 owner 嗎?

    • owner 是負責最後判斷與收尾的人。沒有 owner 的政策很快會變成沒有人維護的阻擋清單。
    • 至少指定一位內容 owner、一位技術 owner,並寫清楚何時要重新評估。

這棵樹的用法很簡單:不要急著先選「全開」或「全封」。先把 crawler 放進正確情境,再決定要放行、觀察、收費或封鎖。

小型內容網站的第一版政策

如果你只有一個小團隊,沒有專門的法務或基礎建設人員,可以先做 4 件事。

1. 寫出三種用途的預設立場

用一句話寫清楚:

  • 搜尋索引:可允許,但要能辨識來源並控制頻率。
  • agent 即時讀取:可讀公開頁,但不得替使用者執行敏感操作。
  • 訓練使用:原創內容預設需要明確授權。

這三句可以先放在內部文件,不一定馬上公開。但只要團隊有共識,之後遇到新 bot 就不用每次重新吵一次。

2. 把高價值路徑列出來

不要先從全站規則開始,先列高價值路徑:

  • /members/:會員內容。
  • /courses/:課程頁。
  • /pricing/:價格與方案。
  • /research/:原創研究或資料庫。
  • 站內搜尋頁、篩選頁、API-like 查詢頁。

API 可以先理解成「系統和系統之間交換資料的接口」。如果某些頁面其實已經像 API 一樣被大量查詢,就應該用 API、限流或授權處理,而不是讓 crawler 自由掃頁。

3. 分開處理「內容可見」與「可被大量取用」

公開頁面代表人類讀者可以看,不代表機器可以無限制大量抓取。這個差別要寫進政策。

你可以用這句當內部原則:

公開閱讀不等於自動化大量取用;大量取用需要說明用途、遵守頻率限制,並在高價值內容上另行授權。

這句話也能幫內容團隊和工程團隊對齊。內容團隊關心的是價值與授權,工程團隊關心的是流量與穩定性;同一句原則可以把兩邊接起來。

4. 設一個 30 天回看點

第一版政策不要寫成永遠不變。你可以設定:每 30 天看一次這 5 個數字。

  • AI crawler 總請求量。
  • 前 10 名 crawler 的用途分類。
  • AI referral 或可辨識回流。
  • 高價值路徑被抓取次數。
  • 因 crawler 造成的錯誤率、成本或客服問題。

如果某個 crawler 帶來可辨識讀者、成本低、用途清楚,就可以維持放行。若它吃掉大量資源、用途模糊,又碰高價值內容,就不該只靠預設善意。

常見錯誤:把所有 AI 流量塞進同一個開關

最容易出事的做法,是在後台看到「AI crawler」就開一個總開關。這會讓三種不同問題混在一起:

  • 曝光問題:我想不想被 AI 搜尋找到?
  • 操作問題:我能不能讓 agent 讀頁、查資料、替使用者走流程?
  • 授權問題:我的內容能不能被拿去訓練或建立資料集?

這三題的答案可能完全不同。你可能願意讓搜尋型 crawler 讀公開文章,因為它有機會帶來讀者;你也可能願意讓 agent 讀 FAQ,但不讓它登入會員區或提交表單;同時,你可能要求訓練型 crawler 先談授權。

如果你的網站已經開始處理 AI 內容雜訊,也可以參考〈用資訊入口與來源規則處理 AI 內容雜訊〉。入口規則和 crawler 政策是一組:前者決定你接收什麼內容,後者決定你的內容如何被機器取用。

什麼時候要收費?

收費不是每個網站都要做,也不一定馬上可行。比較務實的判準是:當 crawler 的用途已經超出「幫你被找到」,而是在消耗你的內容資產或基礎設施時,就應該進入收費或授權討論。

可以用三個問題判斷:

  1. 產品價值: 對方是否用你的內容建立自己的產品價值?

    • 例如:摘要答案、訓練資料、資料庫重組、即時問答。
  2. 對等回報: 你是否拿到對等回報?

    • 例如:可辨識流量、品牌曝光、授權費、合作資料、API 使用費。
  3. 額外成本: 你是否承擔了額外成本?

    • 例如:伺服器負載、快取壓力、內容被替代、客服誤解、授權風險。

三題若有兩題回答「是」,就不要只把它當一般 bot 流量。這時候的選項包括:限流、要求註冊、改走 API、商務授權、付費 crawl,或封鎖到對方提供用途說明為止。

今天就能做的第一步

如果你今天只能做一件事,請不要先追完整工具清單。先開一份文件,命名為「AI crawler access policy v0.1」,寫下四段:

  1. 搜尋索引: 我們允許搜尋索引型 crawler 的條件。
  2. agent 邊界: 我們允許 agent 即時讀取的邊界。
  3. 訓練授權: 我們對訓練型 crawler 的預設授權立場。
  4. 高價值路徑: 哪些路徑屬於高價值內容,必須額外審核。

然後指定 owner 與 30 天回看日期。這份文件可以很短,但它會讓後續技術設定有根據:robots.txt、Bot 管理、WAF、API key、付費牆、合約條款,都只是把這份政策落成不同層級的執行方式。

真正麻煩的不是 Cloudflare 或任何單一平台怎麼改規則,而是內容網站過去習慣把「可被讀取」和「可被機器取用」混在一起。現在值得補上的,是一份能長期維護的存取政策。

用日常來理解

內容團隊把不同 AI crawler 分流成搜尋、即時讀取與訓練用途的四格漫畫

  1. 內容團隊看到一批新的 AI crawler 進站,先沒有急著全開或全封。
  2. 他們把來訪目的分成搜尋曝光、agent 即時讀取、訓練資料三種情境。
  3. 每一種情境再對應到放行、收費、封鎖或人工審核的邊界。
  4. 最後,團隊把規則寫成可回看的政策表,讓下一次新 crawler 進站時有依據可判斷。

AI 整理卡

你可以把下面這段交給 AI,請它幫你產出第一版 crawler 政策。使用前,把括號中的內容換成你的網站資料。

你是內容網站的技術與內容政策顧問。請根據以下資料,幫我草擬一份「AI crawler access policy v0.1」。

網站類型:[例如:小型媒體、知識庫、課程網站、產品文件、資料庫]
高價值內容路徑:[列出 URL path,例如 /members/、/courses/、/research/]
目前已知 AI crawler:[列出名稱、User-Agent、流量概況;不知道就寫未知]
我們希望得到的回報:[搜尋曝光、referral、授權費、API 使用、合作資料]
我們最擔心的風險:[伺服器成本、內容被替代、訓練使用、會員內容外洩、表單被濫用]

請輸出:
1. 搜尋索引型 crawler 的允許條件。
2. agent 即時讀取型 crawler 的允許與禁止行為。
3. 訓練或資料集型 crawler 的授權立場。
4. 必須先封鎖或人工審核的訊號。
5. 30 天後要回看的 5 個指標。

限制:
- 不要只寫抽象原則,每一條都要有可執行條件。
- 區分公開閱讀與自動化大量取用。
- 若資訊不足,請列出需要補問網站 owner 的問題。

這張整理卡的目的不是替你做法律判斷,而是把分散在內容、工程、商務之間的問題先排成同一張清單。等清單成形,你才知道哪些該用工具擋、哪些該用授權談、哪些其實可以放心開。

廣告

Share

分享這篇微課

如果這篇剛好解開一個工作卡點,可以分享給也在判斷 AI 怎麼用的人。

參考來源

Cloudflare Press Release:Cloudflare Allows the Agentic Internet to Flourish with a Simple Philosophy: Your Content, Your Rules — https://www.cloudflare.com/press/press-releases/2026/cloudflare-allows-the-agentic-internet-to-flourish-with-a-simple-philosophy-your-content-your-rules/(2026-07-01)

TechCrunch:Cloudflare’s new policy pushes AI companies to pay for publishers’ content — https://techcrunch.com/2026/07/01/cloudflares-new-policy-pushes-ai-companies-to-pay-for-publishers-content/(2026-07-01)

Help Net Security:Cloudflare changes AI crawler access rules — https://www.helpnetsecurity.com/2026/07/02/cloudflare-ai-crawler-controls/(2026-07-02)

Cloudflare Blog:Introducing pay per crawl — https://blog.cloudflare.com/introducing-pay-per-crawl/(2025-07-01,作為 per-crawl 機制背景)