同じ AI ツールなのに、昨日は研究メモをきれいに要約できたのに、今日は急に慎重になったり、質問の意図から外れたり、特定の段落を避けているように見えたりすることがある。プロンプトを変え、会話を作り直し、言い方をいくつか試しても、結果が安定しない。
このとき、自分の書き方が悪かったのかと考えがちだ。もちろん、そういう場合もある。ただ、2026 年 6 月 11 日、The Verge と Gizmodo は、Anthropic が Claude Fable 5 の見えないガードレールについて謝罪し、関連する保護を可視化すると報じた。ここから得られる実務上の教訓は明快だ。AI の回答が急に悪くなったとき、最初に見るべきなのは誰のミスかではなく、その出力を元のワークフローに入れてよいかである。
見出し案を出すだけなら、回答が少し鈍くても数分の損で済む。だが、研究要約、顧客向け文書、コード移行、安全判断に使っているなら、裏側のルール、ルーティング、ガードレールが変わっただけで、今日の出力は昨日の結果と単純比較できなくなる。まず、モデルが知らないのか、答えられないのか、格下げされたのか、それともタスクを別のものに変えているのかを見分けたい。
問題はガードレールではなく、見えないガードレールである
Anthropic は Claude Fable 5 / Mythos 5 の発表で、Fable 5 は高い能力を持ちながら一般利用向けに安全処理されたモデルだと説明している。一部の高リスク領域では、下位モデルに回されたり、追加の保護が働いたりする場合がある。また Anthropic は「蒸留攻撃」についても説明している。強いモデルの出力を大量に取得し、自分のモデルの訓練に使う行為だ。蒸留自体は正当な技術にもなり得るが、無許可で大規模に能力を抽出する行為は、プラットフォームが防ごうとする対象になる。
多くの利用者にとって実際の影響は、特定のタスクや領域が、はっきり通知されないまま慎重な処理モードに入る可能性があることだ。プラットフォームが保護を置くこと自体は不自然ではない。困るのは、それが見えないとき、利用者には短くなった回答、曖昧な回答、抜けた詳細、以前と違う処理だけが見えることだ。
一般のチームにとって、これは評価ベンチマークの細かい議論ではなく、日常のワークフローにおける信頼の問題である。先週と同じモデルで顧客対応文を検証しているつもりでも、今日モデルが一部ケースをより慎重に処理し始めているなら、条件はすでに変わっている。
最も危険なのは明確な拒否ではない。拒否なら少なくとも手がかりが残る。より危険なのは、使えそうな回答に見えながら、タスクを狭め、敏感な部分を飛ばし、弱いモードで生成し、品質低下を偶発のように見せるケースである。
まず、どの種類の変化かを分ける
AI が使いにくくなったとき、すぐにプロンプトを直したりモデルを替えたりしない。先に「何が悪くなったのか」を言語化する。変化の種類によって、取るべき判断が変わるからだ。
わかりやすい変化もある。モデルが回答できないと言う、または言い換えを求める場合だ。これは安全ポリシー、主題制限、製品ルールに関係することが多い。制限に不満があっても、少なくとも存在は見えている。
つかみにくい変化もある。回答が短くなる、一般論だけになる、以前なら出ていた詳細が消える、または安全、コード、医療、生物、データ抽出、競合調査など特定のタスクだけで悪くなる場合だ。このとき疑うべきなのはプロンプトだけではない。ルーティング、サーバー側更新、実験スイッチ、領域別ガードレールが変わった可能性がある。
最も厄介なのは、タスクが静かに別方向へ変わることだ。A を聞いたのに、安全で曖昧な B が返る。評価を求めたのに注意書きだけになる。比較できる結果を求めたのに、再現できない助言になる。これが研究結論、顧客への約束、本番コード変更に入ると、ツールの制限が成果物のように見えてしまう。
| 見えている現象 | 考えられる主な原因 | 次の対応 |
|---|---|---|
| モデルが回答できないと言う、または言い換えを求める | 安全ポリシーまたは主題制限 | 公式説明を確認する。高リスク作業では無理に迂回して答えさせない |
| 回答が短い、曖昧、詳細が抜ける | モデルの格下げ、ルーティング変更、ガードレールによるタスク縮小 | ステータスページ、製品告知、同一タスクの再テストを確認する。正式利用は一度止める |
| 特定カテゴリのタスクだけ急に悪くなる | 領域別ガードレール、データ制限、実験フラグ | 領域別の公式説明と信頼できる検証を探す。新旧結果を直接比較しない |
| タスクが静かに別方向へ変わる | 見えないガードレールまたはシステム側の書き換え | 元の依頼と出力の差を比べる。信頼できるテスト結果として扱わない |
この表の目的は、プラットフォームの過失を探すことではない。より実務的な問いに答えることだ。この出力は、本来担うはずだった責任をまだ担えるのか。
タスクのリスクで次の一手を決める
AI の挙動変化すべてに大きな対応が必要なわけではない。アイデア出し、文体調整、個人メモの整理なら、モデルが少し慎重になっても、プロンプト変更、モデル変更、時間を置いた再試行で済むことが多い。
しかし、タスクが正式な判断に関わるなら反応を変えるべきだ。研究要約は次の意思決定に影響する。社内レポートは転送される。コードの下書きは本番に取り込まれるかもしれない。顧客対応や契約文は顧客に見られる。こうした場面では、モデルの不透明さは小さな欠点ではなく、ワークフロー上のリスクである。
| タスクの層 | 例 | AI の挙動が変わったときの対応 |
|---|---|---|
| 低リスク | アイデア出し、文体調整、個人メモ | プロンプトやモデルを替えてよい。主に効率を見ればよい |
| 中リスク | 研究要約、社内レポート、コード下書き | モデル変更は可能。ただし出典、入力、出力差分を残す |
| 高リスク | 安全審査、法律文書、財務判断、顧客への約束、本番コードのマージ | 制限を確認し、記録を残し、人の確認を入れる。モデル変更だけで解決しない |
より安全なのは、中・高リスク作業を検証可能な状態へ戻すことだ。入力、出力、モデル名、時刻、制限メッセージ、公式説明、人の判断を残す。供給元が、あるガードレールが以前は見えなかったと認めたなら、影響を受けるワークフローは先週の評価を使い回さず再テストするべきだ。
ここでいう人の判断は、すべてを上司承認にするという意味ではない。責任者が、この出力は納品してよいか、制限は見えているか、明日また挙動が変わったとき影響範囲を特定できるかに答えられる状態を作るという意味だ。
チームは制限を見える場所に出す
AI を日常業務に入れるなら、内部機構をすべて開示するようモデルに求める必要はない。多くの場合、それは不可能だ。ただし、プロセス側で見えるシグナルを残すことはできる。
高リスクタスクの最後に、固定の依頼を入れるとよい。「今回、回答できなかった部分、慎重に扱った部分、ツール制限の影響を受けた可能性がある部分を列挙して」。これで必ず完全に正直になるわけではないが、隠れた制限を少し表に出しやすくする。
さらに重要なのは、「昨日できた」を永続的な事実にしないことだ。モデル、ルール、ルーティング、ガードレール、供給元の方針は変わる。同じタスクで急に品質が変わったら、プロンプトを直す前に、公式ステータス、リリースノート、モデル文書、信頼できる報道を確認する。
影響が低リスク作業だけなら、ツールを替えればよいかもしれない。高リスクの流れに影響するなら、納品を止め、記録を残し、重要ケースを再テストしてから再開を判断する。
AI ツールが仕事に深く入るほど、それを永遠に変わらないボタンのようには扱えない。信頼できるプロセスとは、AI が常に完璧であることではない。挙動が変わったときに、人がシグナルを見て、原因を調べ、次のステップに進めるかを判断できることだ。
生活四コマ

- 最初、ユーザーは同じ質問を AI に渡し、明確で使えそうな安定した回答を受け取る。
- 翌日、同じタスクが霧のように曖昧になり、見えないルールや弱いモードが入ったように見える。
- ユーザーはすぐにプロンプトを書き換えず、拒否、曖昧さ、タスク変更、リスク層を分けて確認する。
- 最後に、低リスク作業は進め、高リスクの流れは人が制限と証拠を確認するまで一時停止する。
AI 整理カード
この記事の状況に合わせて、AI に整理してもらう
自分の AI チャットツールに貼り付けると、このミニクラスを自分用のチェックリストにできます。BMC は、あなたが AI に貼り付けた内容を見ることはありません。
参考資料
- The Verge: Anthropic apologizes for invisible Claude Fable guardrails — https://www.theverge.com/ai-artificial-intelligence/948280/anthropic-claude-fable-invisible-distillation-guardrail
- Gizmodo: Anthropic Apologizes For One of the Guardrails on Its Fable 5 Model, and Will Change It — https://gizmodo.com/anthropic-apologizes-for-one-of-the-guardrails-on-its-fable-5-model-and-will-change-it-2000770365
- Anthropic: Claude Fable 5 and Claude Mythos 5 — https://www.anthropic.com/news/claude-fable-5-mythos-5
- Anthropic: Detecting and preventing distillation attacks — https://www.anthropic.com/news/detecting-and-preventing-distillation-attacks
