AI crawler 該不該進站？用這張表 3 分鐘決定

Larry

你經營一個內容網站、知識庫或小型媒體。某天流量報表突然多出一批 AI crawler：有些說自己是搜尋索引用，有些像是替使用者即時抓資料的 agent，有些則可能把內容拿去訓練模型。

2026 年 7 月 1 日，Cloudflare 宣布把 Pay per crawl 往 Pay per use 推進：內容不只是被 AI 抓取時有價格，而是當內容實際出現在 AI 回答裡、替 AI 產品創造價值時也要進入付費與授權討論。Cloudflare 同時表示，自 9 月 15 日起，新客戶與既有客戶的新站點若是含廣告頁面，預設設定會封鎖訓練與 agent 用途；若 crawler 沒有清楚分開搜尋、訓練與 agent 用途，也會被納入更嚴格的預設處理。這件事表面上是平台政策更新，但對內容網站更大的提醒是：你不能再把所有 AI bot 都當成同一種流量。

如果只問「要不要擋 AI？」答案通常會卡住。比較能落地的問題是：哪一種 crawler、為了什麼用途、用什麼成本進站、出了問題誰負責？

本課重點：

把 AI crawler 拆成三種存取情境：搜尋、agent、訓練。
用一張決策表決定允許、觀察、收費或封鎖。
把政策落成第一版，不等法務、工程與內容團隊全部到齊才開始。

先分清楚：AI crawler 不是一種東西

crawler 可以先理解成「會自動讀取網站內容的程式」。以前你可能主要面對搜尋引擎 bot：它來抓頁面、建立索引，之後把讀者帶回你的網站。

AI crawler 的麻煩在於用途開始分岔：

搜尋型 crawler：目標是讓你的內容出現在 AI 搜尋或摘要結果裡。
agent 型 crawler：agent 可先理解成「會自己連續執行幾步任務的 AI 助手」。它可能替使用者即時讀你的頁面、比價、查規格、整理答案。
訓練型 crawler：目標是把內容納入模型訓練或資料集，未必會帶回可辨識的讀者流量。

這三種流量對網站的價值與風險不同。如果你把它們全部放在同一條規則裡，就會出現兩種壞結果：該進來的搜尋曝光被擋掉，該談授權或限流的訓練存取卻被默默放行。

BMC 之前談過，agentic web 需要機器可讀的入口與驗收門檻；如果網站沒有寫清楚入口規則，AI 工具就只能用猜的。你可以把這篇和〈讓 agent 進網站前，先準備機器可讀的門〉一起看：前者處理「讓誰進門」，這篇處理「進門後算什麼用途」。

一張 AI crawler 存取政策表

下面這張表不是要你一次做到完美，而是先把「預設反應」從情緒改成政策。每一列都可以轉成 robots.txt、WAF 規則、Bot 管理設定、合約條款或內部處理流程。

crawler 類型	允許條件	收費或授權條件	應該先封鎖的訊號	第一個可量測指標
搜尋索引型	明確標示用途為搜尋或索引；能帶回可辨識 referral；抓取頻率不超過一般搜尋 bot 的 2 倍	若摘要頁大量替代點擊，且 30 天內 AI referral 低於內容頁總訪問的 1%，改列入商務洽談	User-Agent 不透明、IP 來源頻繁更換、短時間掃完整站舊文	每週 AI referral、被抓取頁數、伺服器成本
agent 即時讀取型	只讀公開頁面；不登入、不下單、不提交表單；每位終端使用者觸發的請求可被限流	若 agent 需要大量即時讀取資料、價格、庫存、專業資料庫內容，要求 API 或付費方案	嘗試繞過登入牆、連續觸發搜尋頁、送出表單或模擬使用者操作	每日請求峰值、錯誤率、被觸發的敏感路徑
訓練或資料集型	只在已有公開授權、明確 opt-in 或內容本來就可再利用時允許	原創文章、付費內容、資料庫、研究報告，預設要求授權或付費	未說明用途、把訓練與搜尋混在同一 bot、無法提供刪除或退出方式	被抓取字數、重複抓取比例、授權回覆率
內部或合作夥伴 bot	有固定 IP、明確負責窗口、測試與正式流量分開	超出原合作範圍，例如從搜尋曝光改成訓練資料，重新簽核	沒有 owner、沒有變更通知、流量暴增但沒有人承認	合作方請求量、異常通知回覆時間

這張表的重點是把「用途」放在第一層，而非只看技術名稱。User-Agent 可以偽裝，IP 也會變；但你的政策應該先回答：這個存取行為對網站的交換關係是什麼？

如果它幫你被找到，重點是曝光品質與成本。
如果它替使用者即時讀資料，重點是限流、權限與操作邊界。
如果它把內容拿去訓練，重點是授權、補償與退出機制。

用文字版決策樹跑一次

如果你的團隊還沒有 crawler 政策，可以照這個順序走，不必一開始就寫完整規章。

這個 crawler 是否明確說明用途？
- 有：進下一題。
- 沒有：先放進觀察或封鎖清單，直到對方能提供用途、聯絡方式與退出方式。
它的用途是搜尋、agent 即時讀取，還是訓練？
- 搜尋：檢查是否真的帶回可辨識流量。
- agent：檢查是否只讀公開資料，且不觸發登入、表單或交易。
- 訓練：檢查內容授權與商業交換是否成立。
它是否造成可量測成本？
- 例如：單日請求量超過平常 bot 平均的 2 倍、錯誤率增加、快取命中率下降、搜尋頁被大量掃描。
- 有成本：改成限流、收費、API 或人工審核。
- 沒成本：先保留觀察，但設定 30 天後回看。
它是否碰到高價值內容？
- 例如：付費文章、會員資料、原創研究、產品資料庫、課程內容、價格或庫存頁。
- 有：預設不免費開放訓練與大量讀取。
- 沒有：可用較寬鬆政策，但仍要留 log。
這條規則有 owner 嗎？
- owner 是負責最後判斷與收尾的人。沒有 owner 的政策很快會變成沒有人維護的阻擋清單。
- 至少指定一位內容 owner、一位技術 owner，並寫清楚何時要重新評估。

這棵樹的用法很簡單：不要急著先選「全開」或「全封」。先把 crawler 放進正確情境，再決定要放行、觀察、收費或封鎖。

小型內容網站的第一版政策

如果你只有一個小團隊，沒有專門的法務或基礎建設人員，可以先做 4 件事。

1. 寫出三種用途的預設立場

用一句話寫清楚：

搜尋索引：可允許，但要能辨識來源並控制頻率。
agent 即時讀取：可讀公開頁，但不得替使用者執行敏感操作。
訓練使用：原創內容預設需要明確授權。

這三句可以先放在內部文件，不一定馬上公開。但只要團隊有共識，之後遇到新 bot 就不用每次重新吵一次。

2. 把高價值路徑列出來

不要先從全站規則開始，先列高價值路徑：

/members/：會員內容。
/courses/：課程頁。
/pricing/：價格與方案。
/research/：原創研究或資料庫。
站內搜尋頁、篩選頁、API-like 查詢頁。

API 可以先理解成「系統和系統之間交換資料的接口」。如果某些頁面其實已經像 API 一樣被大量查詢，就應該用 API、限流或授權處理，而不是讓 crawler 自由掃頁。

3. 分開處理「內容可見」與「可被大量取用」

公開頁面代表人類讀者可以看，不代表機器可以無限制大量抓取。這個差別要寫進政策。

你可以用這句當內部原則：

公開閱讀不等於自動化大量取用；大量取用需要說明用途、遵守頻率限制，並在高價值內容上另行授權。

這句話也能幫內容團隊和工程團隊對齊。內容團隊關心的是價值與授權，工程團隊關心的是流量與穩定性；同一句原則可以把兩邊接起來。

4. 設一個 30 天回看點

第一版政策不要寫成永遠不變。你可以設定：每 30 天看一次這 5 個數字。

AI crawler 總請求量。
前 10 名 crawler 的用途分類。
AI referral 或可辨識回流。
高價值路徑被抓取次數。
因 crawler 造成的錯誤率、成本或客服問題。

如果某個 crawler 帶來可辨識讀者、成本低、用途清楚，就可以維持放行。若它吃掉大量資源、用途模糊，又碰高價值內容，就不該只靠預設善意。

常見錯誤：把所有 AI 流量塞進同一個開關

最容易出事的做法，是在後台看到「AI crawler」就開一個總開關。這會讓三種不同問題混在一起：

曝光問題：我想不想被 AI 搜尋找到？
操作問題：我能不能讓 agent 讀頁、查資料、替使用者走流程？
授權問題：我的內容能不能被拿去訓練或建立資料集？

這三題的答案可能完全不同。你可能願意讓搜尋型 crawler 讀公開文章，因為它有機會帶來讀者；你也可能願意讓 agent 讀 FAQ，但不讓它登入會員區或提交表單；同時，你可能要求訓練型 crawler 先談授權。

如果你的網站已經開始處理 AI 內容雜訊，也可以參考〈用資訊入口與來源規則處理 AI 內容雜訊〉。入口規則和 crawler 政策是一組：前者決定你接收什麼內容，後者決定你的內容如何被機器取用。

什麼時候要收費？

收費不是每個網站都要做，也不一定馬上可行。比較務實的判準是：當 crawler 的用途已經超出「幫你被找到」，而是在消耗你的內容資產或基礎設施時，就應該進入收費或授權討論。

可以用三個問題判斷：

產品價值： 對方是否用你的內容建立自己的產品價值？
- 例如：摘要答案、訓練資料、資料庫重組、即時問答。
對等回報： 你是否拿到對等回報？
- 例如：可辨識流量、品牌曝光、授權費、合作資料、API 使用費。
額外成本： 你是否承擔了額外成本？
- 例如：伺服器負載、快取壓力、內容被替代、客服誤解、授權風險。

三題若有兩題回答「是」，就不要只把它當一般 bot 流量。這時候的選項包括：限流、要求註冊、改走 API、商務授權、付費 crawl，或封鎖到對方提供用途說明為止。

今天就能做的第一步

如果你今天只能做一件事，請不要先追完整工具清單。先開一份文件，命名為「AI crawler access policy v0.1」，寫下四段：

搜尋索引： 我們允許搜尋索引型 crawler 的條件。
agent 邊界： 我們允許 agent 即時讀取的邊界。
訓練授權： 我們對訓練型 crawler 的預設授權立場。
高價值路徑： 哪些路徑屬於高價值內容，必須額外審核。

然後指定 owner 與 30 天回看日期。這份文件可以很短，但它會讓後續技術設定有根據：robots.txt、Bot 管理、WAF、API key、付費牆、合約條款，都只是把這份政策落成不同層級的執行方式。

真正麻煩的不是 Cloudflare 或任何單一平台怎麼改規則，而是內容網站過去習慣把「可被讀取」和「可被機器取用」混在一起。現在值得補上的，是一份能長期維護的存取政策。

用日常來理解

內容團隊把不同 AI crawler 分流成搜尋、即時讀取與訓練用途的四格漫畫

內容團隊看到一批新的 AI crawler 進站，先沒有急著全開或全封。
他們把來訪目的分成搜尋曝光、agent 即時讀取、訓練資料三種情境。
每一種情境再對應到放行、收費、封鎖或人工審核的邊界。
最後，團隊把規則寫成可回看的政策表，讓下一次新 crawler 進站時有依據可判斷。

AI 整理卡

你可以把下面這段交給 AI，請它幫你產出第一版 crawler 政策。使用前，把括號中的內容換成你的網站資料。

你是內容網站的技術與內容政策顧問。請根據以下資料，幫我草擬一份「AI crawler access policy v0.1」。

網站類型：［例如：小型媒體、知識庫、課程網站、產品文件、資料庫］
高價值內容路徑：［列出 URL path，例如 /members/、/courses/、/research/］
目前已知 AI crawler：［列出名稱、User-Agent、流量概況；不知道就寫未知］
我們希望得到的回報：［搜尋曝光、referral、授權費、API 使用、合作資料］
我們最擔心的風險：［伺服器成本、內容被替代、訓練使用、會員內容外洩、表單被濫用］

請輸出：
1. 搜尋索引型 crawler 的允許條件。
2. agent 即時讀取型 crawler 的允許與禁止行為。
3. 訓練或資料集型 crawler 的授權立場。
4. 必須先封鎖或人工審核的訊號。
5. 30 天後要回看的 5 個指標。

限制：
- 不要只寫抽象原則，每一條都要有可執行條件。
- 區分公開閱讀與自動化大量取用。
- 若資訊不足，請列出需要補問網站 owner 的問題。

這張整理卡的目的不是替你做法律判斷，而是把分散在內容、工程、商務之間的問題先排成同一張清單。等清單成形，你才知道哪些該用工具擋、哪些該用授權談、哪些其實可以放心開。

參考來源

Cloudflare Press Release：Cloudflare Allows the Agentic Internet to Flourish with a Simple Philosophy: Your Content, Your Rules — https://www.cloudflare.com/press/press-releases/2026/cloudflare-allows-the-agentic-internet-to-flourish-with-a-simple-philosophy-your-content-your-rules/（2026-07-01）

TechCrunch：Cloudflare’s new policy pushes AI companies to pay for publishers’ content — https://techcrunch.com/2026/07/01/cloudflares-new-policy-pushes-ai-companies-to-pay-for-publishers-content/（2026-07-01）

Help Net Security：Cloudflare changes AI crawler access rules — https://www.helpnetsecurity.com/2026/07/02/cloudflare-ai-crawler-controls/（2026-07-02）

Cloudflare Blog：Introducing pay per crawl — https://blog.cloudflare.com/introducing-pay-per-crawl/（2025-07-01，作為 per-crawl 機制背景）