你可能遇過這種情況:同一個 AI 工具,昨天還能把研究摘要整理得很清楚,今天突然變得保守、答非所問,或像是刻意避開某些段落。你改了提示、重開對話、換了幾種說法,結果還是不穩。
這時候很容易把問題歸咎於自己:「是不是提示(你打給 AI 的那段指令)寫錯?」有時確實是。但 2026 年 6 月 11 日,The Verge 與 Gizmodo 報導 Anthropic 為 Claude Fable 5 的一項隱形防護設計道歉,並表示會讓相關防護變得可見。這件事提醒我們:AI 回答突然變差時,真正要判斷的不是誰犯錯,而是這次輸出還能不能被放進原本的流程。
如果只是拿 AI 幫你想標題,回答變鈍一點,頂多浪費幾分鐘。但如果它正在協助研究摘要、客戶文件、程式碼遷移或安全判斷,模型背後的規則、路由或防護一旦改變,輸出就不能再和昨天的結果直接比較。你需要先弄清楚:它是不知道、不能答、被降級,還是把你的任務默默改成另一件事。
問題不是防護,而是防護不可見
Anthropic 在 Claude Fable 5 / Mythos 5 發表文章中說,Fable 5 是一個能力很強、但針對一般使用做過安全處理的模型;某些高風險主題會改由次一階模型回應,或受到額外防護。Anthropic 也在另一篇文章談到「蒸餾攻擊」:有人大量取得強模型輸出,再拿去訓練自己的模型。蒸餾本身可以是合法技術,但未經授權、大規模抽取模型能力,就會變成平台要防的行為。
對大多數使用者來說,這件事的實際影響是:某些任務或特定領域的查詢,可能在你沒有被明確告知的情況下,被導向更保守的處理模式。平台設防護並不奇怪。真正困擾使用者的是,當防護沒有被清楚呈現時,使用者只能看到一個模糊結果:答案變短、變空泛、避開細節,或同一題突然不再照原本方式處理。
對一般讀者來說,這不是模型評測圈的技術細節,而是日常工作流裡的信任問題。假設你的團隊上週用某個模型測過一批客服回覆,今天要把同一套流程接到正式客服草稿。如果模型今天開始用更保守的方式處理某些案例,但介面沒有明說,你以為自己正在重跑同一個測試,其實條件已經不同了。
這時候最危險的不是 AI 拒答。明確拒答至少留下線索。比較危險的是它看似有回答,卻把任務縮小、跳過敏感段落,或用一個比較弱的模式產生結果,讓你誤以為品質下降只是偶發。
先判斷這次輸出屬於哪一種變化
AI 變得不好用時,先不要立刻改提示,也不要急著換模型。比較好的做法,是先把「變差」說清楚,因為不同變化代表不同決定。
有些變化很明顯:模型直接說不能回答,或要求你改寫問題。這類情況通常跟安全政策、主題限制或產品規則有關。你可以不喜歡這個限制,但至少知道限制存在。
有些變化比較難抓:回答變短、變空泛、少了原本會提供的細節,或只在安全、程式碼、醫療、生物、資料抽取、競品研究等特定任務上變差。這時候要懷疑的就不只是提示,而是模型路由、服務端更新、實驗開關,或某個領域新增防護。
還有一種最麻煩:內容像被偷偷改方向。你問的是 A,它回的是比較安全、比較籠統的 B;你要的是評估,它給的是提醒;你要的是可比較結果,它給的是一段無法重現的建議。這種輸出如果進入研究結論、客戶承諾或正式程式碼變更,就會把「工具限制」包裝成「工作成果」。
你可以先用這張表把眼前的情況分出來:
| 你看到的現象 | 最可能的原因 | 下一步 |
|---|---|---|
| 模型說不能回答,或要求你改寫問題 | 安全政策或主題限制 | 查官方說明;高風險任務不要用繞法逼它回答 |
| 回答變短、變空泛、少了原本的細節 | 模型被降級、路由改變,或防護把任務收窄 | 查狀態頁、產品公告與同任務重測結果;正式任務先暫停使用這次輸出 |
| 只有某一類任務突然變差 | 該領域新增防護、資料限制或實驗開關 | 找該領域的官方說明與可信實測;不要把新結果和舊測試直接比較 |
| 任務像是被偷偷改方向 | 隱形防護或系統層改寫 | 比較原始需求與輸出差異;不要把它當成可靠測試結果 |
這張表不是要抓平台出錯,而是幫你回答一個更實際的問題:這次輸出還能不能承擔原本那個責任?
用任務風險決定下一步
不是每個 AI 行為變化都值得大動作處理。寫靈感草稿、改語氣、整理個人筆記時,模型偶爾保守一點,通常可以換提示、換模型,或稍後再試。
但任務一旦牽涉正式判斷,反應就要不同。研究摘要會影響下一步決策,內部報告會被轉述,程式碼草稿可能被合進正式版本,客服或合約文字會被客戶看到。這些情境裡,模型不透明不是小瑕疵,而是流程風險。
判斷方式可以分成三層:
| 任務層級 | 例子 | AI 行為變化時的做法 |
|---|---|---|
| 低風險 | 靈感草稿、語氣改寫、個人筆記整理 | 可換提示或換模型,主要看效率 |
| 中風險 | 研究摘要、內部報告、程式碼草稿 | 可換模型,但要保留來源、輸入與輸出差異 |
| 高風險 | 安全審查、法律文件、財務判斷、客戶承諾、正式程式碼合併 | 先查限制、留紀錄、請人覆核;不要只靠換模型解決 |
比較穩的做法,是把中高風險任務退回可驗證狀態:留下輸入、輸出、模型名稱、時間、限制訊息、官方說明與人工判斷。若供應商承認某項防護原本不可見,受影響的流程就應該重測,而不是沿用上週的評估結論。
這裡的「人工判斷」不是叫每件事都交給主管簽核,而是要有一個實際負責的人能回答:這次輸出是否可以交付?它的限制是否被看見?如果明天模型行為又變了,我們能不能知道哪一批結果受到影響?
團隊要讓限制浮上來
如果你把 AI 放進日常工作,不需要要求模型透露所有內部機制;那通常也不可能。但你可以要求流程留下可見訊號。
例如,固定在高風險任務後面加一句:請列出這次你無法回答、需要保守處理、或可能受到工具限制的部分。這句話不能保證 AI 一定坦白,但它會把隱藏限制往檯面上推一步。
更重要的是,不要把「昨天可以」當成永久事實。模型、規則、路由、防護、供應商政策都可能變。當同一組任務今天突然得到不同品質的結果,先查官方狀態、版本說明、模型文件與可信媒體報導,再決定是否改提示或換模型。
如果最後判斷只是低風險任務受影響,換工具就好。如果是高風險流程受影響,先暫停交付、留下紀錄、重測關鍵案例,再決定是否恢復使用。
AI 工具越常被放進工作流,越不能把它當成一個永遠不變的按鈕。真正可靠的流程,不是要求 AI 永遠完美,而是當它的行為改變時,人能看見訊號、查到原因,並決定這一步能不能繼續往下走。
用日常來理解

- 一開始,使用者把同一個問題交給 AI,得到清楚、可用、看起來很穩定的回答。
- 隔天同一題突然變得模糊,回答繞路,像是有看不見的規則或較弱模式介入。
- 使用者先不急著改提示,而是把拒答、空泛、任務改向與風險等級分開檢查。
- 最後,低風險任務可以繼續;高風險流程先暫停,等人看過限制與證據後再決定。
AI 整理卡
依這篇情境,請 AI 幫你整理
複製到你自己的 AI 聊天工具,讓它把這篇微課轉成你的個人版檢查清單。BMC 不會看到你貼給 AI 的內容。
參考來源
- The Verge:Anthropic apologizes for invisible Claude Fable guardrails — https://www.theverge.com/ai-artificial-intelligence/948280/anthropic-claude-fable-invisible-distillation-guardrail
- Gizmodo:Anthropic Apologizes For One of the Guardrails on Its Fable 5 Model, and Will Change It — https://gizmodo.com/anthropic-apologizes-for-one-of-the-guardrails-on-its-fable-5-model-and-will-change-it-2000770365
- Anthropic:Claude Fable 5 and Claude Mythos 5 — https://www.anthropic.com/news/claude-fable-5-mythos-5
- Anthropic:Detecting and preventing distillation attacks — https://www.anthropic.com/news/detecting-and-preventing-distillation-attacks
