你經營一個內容網站、知識庫或小型媒體。某天流量報表突然多出一批 AI crawler:有些說自己是搜尋索引用,有些像是替使用者即時抓資料的 agent,有些則可能把內容拿去訓練模型。
2026 年 7 月 1 日,Cloudflare 宣布把 Pay per crawl 往 Pay per use 推進:內容不只是被 AI 抓取時有價格,而是當內容實際出現在 AI 回答裡、替 AI 產品創造價值時也要進入付費與授權討論。Cloudflare 同時表示,自 9 月 15 日起,新客戶與既有客戶的新站點若是含廣告頁面,預設設定會封鎖訓練與 agent 用途;若 crawler 沒有清楚分開搜尋、訓練與 agent 用途,也會被納入更嚴格的預設處理。這件事表面上是平台政策更新,但對內容網站更大的提醒是:你不能再把所有 AI bot 都當成同一種流量。
如果只問「要不要擋 AI?」答案通常會卡住。比較能落地的問題是:哪一種 crawler、為了什麼用途、用什麼成本進站、出了問題誰負責?
本課重點:
- 把 AI crawler 拆成三種存取情境:搜尋、agent、訓練。
- 用一張決策表決定允許、觀察、收費或封鎖。
- 把政策落成第一版,不等法務、工程與內容團隊全部到齊才開始。
先分清楚:AI crawler 不是一種東西
crawler 可以先理解成「會自動讀取網站內容的程式」。以前你可能主要面對搜尋引擎 bot:它來抓頁面、建立索引,之後把讀者帶回你的網站。
AI crawler 的麻煩在於用途開始分岔:
- 搜尋型 crawler:目標是讓你的內容出現在 AI 搜尋或摘要結果裡。
- agent 型 crawler:agent 可先理解成「會自己連續執行幾步任務的 AI 助手」。它可能替使用者即時讀你的頁面、比價、查規格、整理答案。
- 訓練型 crawler:目標是把內容納入模型訓練或資料集,未必會帶回可辨識的讀者流量。
這三種流量對網站的價值與風險不同。如果你把它們全部放在同一條規則裡,就會出現兩種壞結果:該進來的搜尋曝光被擋掉,該談授權或限流的訓練存取卻被默默放行。
BMC 之前談過,agentic web 需要機器可讀的入口與驗收門檻;如果網站沒有寫清楚入口規則,AI 工具就只能用猜的。你可以把這篇和〈讓 agent 進網站前,先準備機器可讀的門〉一起看:前者處理「讓誰進門」,這篇處理「進門後算什麼用途」。
一張 AI crawler 存取政策表
下面這張表不是要你一次做到完美,而是先把「預設反應」從情緒改成政策。每一列都可以轉成 robots.txt、WAF 規則、Bot 管理設定、合約條款或內部處理流程。
| crawler 類型 | 允許條件 | 收費或授權條件 | 應該先封鎖的訊號 | 第一個可量測指標 |
|---|---|---|---|---|
| 搜尋索引型 | 明確標示用途為搜尋或索引;能帶回可辨識 referral;抓取頻率不超過一般搜尋 bot 的 2 倍 | 若摘要頁大量替代點擊,且 30 天內 AI referral 低於內容頁總訪問的 1%,改列入商務洽談 | User-Agent 不透明、IP 來源頻繁更換、短時間掃完整站舊文 | 每週 AI referral、被抓取頁數、伺服器成本 |
| agent 即時讀取型 | 只讀公開頁面;不登入、不下單、不提交表單;每位終端使用者觸發的請求可被限流 | 若 agent 需要大量即時讀取資料、價格、庫存、專業資料庫內容,要求 API 或付費方案 | 嘗試繞過登入牆、連續觸發搜尋頁、送出表單或模擬使用者操作 | 每日請求峰值、錯誤率、被觸發的敏感路徑 |
| 訓練或資料集型 | 只在已有公開授權、明確 opt-in 或內容本來就可再利用時允許 | 原創文章、付費內容、資料庫、研究報告,預設要求授權或付費 | 未說明用途、把訓練與搜尋混在同一 bot、無法提供刪除或退出方式 | 被抓取字數、重複抓取比例、授權回覆率 |
| 內部或合作夥伴 bot | 有固定 IP、明確負責窗口、測試與正式流量分開 | 超出原合作範圍,例如從搜尋曝光改成訓練資料,重新簽核 | 沒有 owner、沒有變更通知、流量暴增但沒有人承認 | 合作方請求量、異常通知回覆時間 |
這張表的重點是把「用途」放在第一層,而非只看技術名稱。User-Agent 可以偽裝,IP 也會變;但你的政策應該先回答:這個存取行為對網站的交換關係是什麼?
- 如果它幫你被找到,重點是曝光品質與成本。
- 如果它替使用者即時讀資料,重點是限流、權限與操作邊界。
- 如果它把內容拿去訓練,重點是授權、補償與退出機制。
用文字版決策樹跑一次
如果你的團隊還沒有 crawler 政策,可以照這個順序走,不必一開始就寫完整規章。
這個 crawler 是否明確說明用途?
- 有:進下一題。
- 沒有:先放進觀察或封鎖清單,直到對方能提供用途、聯絡方式與退出方式。
它的用途是搜尋、agent 即時讀取,還是訓練?
- 搜尋:檢查是否真的帶回可辨識流量。
- agent:檢查是否只讀公開資料,且不觸發登入、表單或交易。
- 訓練:檢查內容授權與商業交換是否成立。
它是否造成可量測成本?
- 例如:單日請求量超過平常 bot 平均的 2 倍、錯誤率增加、快取命中率下降、搜尋頁被大量掃描。
- 有成本:改成限流、收費、API 或人工審核。
- 沒成本:先保留觀察,但設定 30 天後回看。
它是否碰到高價值內容?
- 例如:付費文章、會員資料、原創研究、產品資料庫、課程內容、價格或庫存頁。
- 有:預設不免費開放訓練與大量讀取。
- 沒有:可用較寬鬆政策,但仍要留 log。
這條規則有 owner 嗎?
- owner 是負責最後判斷與收尾的人。沒有 owner 的政策很快會變成沒有人維護的阻擋清單。
- 至少指定一位內容 owner、一位技術 owner,並寫清楚何時要重新評估。
這棵樹的用法很簡單:不要急著先選「全開」或「全封」。先把 crawler 放進正確情境,再決定要放行、觀察、收費或封鎖。
小型內容網站的第一版政策
如果你只有一個小團隊,沒有專門的法務或基礎建設人員,可以先做 4 件事。
1. 寫出三種用途的預設立場
用一句話寫清楚:
- 搜尋索引:可允許,但要能辨識來源並控制頻率。
- agent 即時讀取:可讀公開頁,但不得替使用者執行敏感操作。
- 訓練使用:原創內容預設需要明確授權。
這三句可以先放在內部文件,不一定馬上公開。但只要團隊有共識,之後遇到新 bot 就不用每次重新吵一次。
2. 把高價值路徑列出來
不要先從全站規則開始,先列高價值路徑:
/members/:會員內容。/courses/:課程頁。/pricing/:價格與方案。/research/:原創研究或資料庫。- 站內搜尋頁、篩選頁、API-like 查詢頁。
API 可以先理解成「系統和系統之間交換資料的接口」。如果某些頁面其實已經像 API 一樣被大量查詢,就應該用 API、限流或授權處理,而不是讓 crawler 自由掃頁。
3. 分開處理「內容可見」與「可被大量取用」
公開頁面代表人類讀者可以看,不代表機器可以無限制大量抓取。這個差別要寫進政策。
你可以用這句當內部原則:
公開閱讀不等於自動化大量取用;大量取用需要說明用途、遵守頻率限制,並在高價值內容上另行授權。
這句話也能幫內容團隊和工程團隊對齊。內容團隊關心的是價值與授權,工程團隊關心的是流量與穩定性;同一句原則可以把兩邊接起來。
4. 設一個 30 天回看點
第一版政策不要寫成永遠不變。你可以設定:每 30 天看一次這 5 個數字。
- AI crawler 總請求量。
- 前 10 名 crawler 的用途分類。
- AI referral 或可辨識回流。
- 高價值路徑被抓取次數。
- 因 crawler 造成的錯誤率、成本或客服問題。
如果某個 crawler 帶來可辨識讀者、成本低、用途清楚,就可以維持放行。若它吃掉大量資源、用途模糊,又碰高價值內容,就不該只靠預設善意。
常見錯誤:把所有 AI 流量塞進同一個開關
最容易出事的做法,是在後台看到「AI crawler」就開一個總開關。這會讓三種不同問題混在一起:
- 曝光問題:我想不想被 AI 搜尋找到?
- 操作問題:我能不能讓 agent 讀頁、查資料、替使用者走流程?
- 授權問題:我的內容能不能被拿去訓練或建立資料集?
這三題的答案可能完全不同。你可能願意讓搜尋型 crawler 讀公開文章,因為它有機會帶來讀者;你也可能願意讓 agent 讀 FAQ,但不讓它登入會員區或提交表單;同時,你可能要求訓練型 crawler 先談授權。
如果你的網站已經開始處理 AI 內容雜訊,也可以參考〈用資訊入口與來源規則處理 AI 內容雜訊〉。入口規則和 crawler 政策是一組:前者決定你接收什麼內容,後者決定你的內容如何被機器取用。
什麼時候要收費?
收費不是每個網站都要做,也不一定馬上可行。比較務實的判準是:當 crawler 的用途已經超出「幫你被找到」,而是在消耗你的內容資產或基礎設施時,就應該進入收費或授權討論。
可以用三個問題判斷:
產品價值: 對方是否用你的內容建立自己的產品價值?
- 例如:摘要答案、訓練資料、資料庫重組、即時問答。
對等回報: 你是否拿到對等回報?
- 例如:可辨識流量、品牌曝光、授權費、合作資料、API 使用費。
額外成本: 你是否承擔了額外成本?
- 例如:伺服器負載、快取壓力、內容被替代、客服誤解、授權風險。
三題若有兩題回答「是」,就不要只把它當一般 bot 流量。這時候的選項包括:限流、要求註冊、改走 API、商務授權、付費 crawl,或封鎖到對方提供用途說明為止。
今天就能做的第一步
如果你今天只能做一件事,請不要先追完整工具清單。先開一份文件,命名為「AI crawler access policy v0.1」,寫下四段:
- 搜尋索引: 我們允許搜尋索引型 crawler 的條件。
- agent 邊界: 我們允許 agent 即時讀取的邊界。
- 訓練授權: 我們對訓練型 crawler 的預設授權立場。
- 高價值路徑: 哪些路徑屬於高價值內容,必須額外審核。
然後指定 owner 與 30 天回看日期。這份文件可以很短,但它會讓後續技術設定有根據:robots.txt、Bot 管理、WAF、API key、付費牆、合約條款,都只是把這份政策落成不同層級的執行方式。
真正麻煩的不是 Cloudflare 或任何單一平台怎麼改規則,而是內容網站過去習慣把「可被讀取」和「可被機器取用」混在一起。現在值得補上的,是一份能長期維護的存取政策。
用日常來理解

- 內容團隊看到一批新的 AI crawler 進站,先沒有急著全開或全封。
- 他們把來訪目的分成搜尋曝光、agent 即時讀取、訓練資料三種情境。
- 每一種情境再對應到放行、收費、封鎖或人工審核的邊界。
- 最後,團隊把規則寫成可回看的政策表,讓下一次新 crawler 進站時有依據可判斷。
AI 整理卡
你可以把下面這段交給 AI,請它幫你產出第一版 crawler 政策。使用前,把括號中的內容換成你的網站資料。
你是內容網站的技術與內容政策顧問。請根據以下資料,幫我草擬一份「AI crawler access policy v0.1」。
網站類型:[例如:小型媒體、知識庫、課程網站、產品文件、資料庫]
高價值內容路徑:[列出 URL path,例如 /members/、/courses/、/research/]
目前已知 AI crawler:[列出名稱、User-Agent、流量概況;不知道就寫未知]
我們希望得到的回報:[搜尋曝光、referral、授權費、API 使用、合作資料]
我們最擔心的風險:[伺服器成本、內容被替代、訓練使用、會員內容外洩、表單被濫用]
請輸出:
1. 搜尋索引型 crawler 的允許條件。
2. agent 即時讀取型 crawler 的允許與禁止行為。
3. 訓練或資料集型 crawler 的授權立場。
4. 必須先封鎖或人工審核的訊號。
5. 30 天後要回看的 5 個指標。
限制:
- 不要只寫抽象原則,每一條都要有可執行條件。
- 區分公開閱讀與自動化大量取用。
- 若資訊不足,請列出需要補問網站 owner 的問題。
這張整理卡的目的不是替你做法律判斷,而是把分散在內容、工程、商務之間的問題先排成同一張清單。等清單成形,你才知道哪些該用工具擋、哪些該用授權談、哪些其實可以放心開。
參考來源
Cloudflare Press Release:Cloudflare Allows the Agentic Internet to Flourish with a Simple Philosophy: Your Content, Your Rules — https://www.cloudflare.com/press/press-releases/2026/cloudflare-allows-the-agentic-internet-to-flourish-with-a-simple-philosophy-your-content-your-rules/(2026-07-01)
TechCrunch:Cloudflare’s new policy pushes AI companies to pay for publishers’ content — https://techcrunch.com/2026/07/01/cloudflares-new-policy-pushes-ai-companies-to-pay-for-publishers-content/(2026-07-01)
Help Net Security:Cloudflare changes AI crawler access rules — https://www.helpnetsecurity.com/2026/07/02/cloudflare-ai-crawler-controls/(2026-07-02)
Cloudflare Blog:Introducing pay per crawl — https://blog.cloudflare.com/introducing-pay-per-crawl/(2025-07-01,作為 per-crawl 機制背景)



