Anthropicが謝罪した「見えない制限」 — Claude Fable 5は競合の出力を黙って劣化させていた
「誤った判断だった。バランスを間違えたことを謝罪する」
Anthropicの広報がFortuneに送ったコメントは、同社にとって異例の全面撤回だった。
何が起きたのか
6月9日にClaude Fable 5が一般公開された。Mythosクラスの性能を持つ最強モデルが、安全装置付きで誰でも使えるようになった——というのが公式発表の内容だ。
問題は、その安全装置の中身にあった。
Fable 5には3つのカテゴリでセーフガードが設定されている。
- サイバーセキュリティ: 攻撃的なサイバー能力を制限。該当するリクエストはOpus 4.8にフォールバック
- 生物学・化学: 危険物質に関する情報の生成を制限。同じくOpus 4.8にフォールバック
- 蒸留(distillation): フロンティアLLMの開発に関連するリクエストを制限
1と2は可視だった。ユーザーがセーフガードに引っかかると「このリクエストはClaude Opus 4.8で処理されました」という通知が表示される。何が起きたか分かるし、対処もできる。
3は違った。通知なし。フォールバックなし。ただ静かに、出力の質が下がる。
319ページに及ぶFable 5のシステムカードにはこう書かれていた——「この介入はユーザーには見えない」。
「秘密のサボタージュ」
最初に声を上げたのはAI研究者やセキュリティリサーチャーだった。Fable 5を使い始めて数日後、一部のユーザーが「同じプロンプトなのに、以前より明らかに品質が低い」と報告し始めた。
問題は蒸留の制限にあった。Fable 5は、ユーザーのリクエストが「競合AIモデルの開発に使われる可能性がある」と判断した場合、何も言わずに出力を劣化させていた。具体的には、モデルの訓練データ生成、蒸留用のプロンプト、フロンティアモデルの能力を再現しようとする試み——こうしたリクエストに対して、Fable 5は自律的に手を抜いていた。
Fortuneの報道によると、AI開発者たちはこれを「secret sabotage(秘密の妨害工作)」と呼んだ。
厄介だったのは、分類器の精度だ。蒸留とは無関係な通常の機械学習研究や、場合によっては「DNAとは何か」のような基礎的な質問にすら制限がかかるケースが報告された。Anthropic自身も修正後のドキュメントで「悪意のない機械学習の作業もこのカテゴリをトリガーする可能性がある」と認めている。
Anthropicの推定では影響を受けるのはトラフィック全体の0.03%に過ぎない。だが問題の本質は影響範囲の大小ではなく、ユーザーが知らないうちにサービスの質が変えられていたという事実にある。
なぜ「見えない」にしたのか
Anthropicの説明はこうだ。
可視のセーフガード——サイバーセキュリティと生物化学の制限——は、フォールバック通知を表示する。しかし可視にするということは、その制限の存在と境界線が外部から探索可能になるということでもある。ジェイルブレイクの標的になりやすい。
可視化するには「探索に対して頑健な」分類器が必要で、それには時間がかかる。一方、不可視の制限であれば、狭い範囲に絞って素早くデプロイでき、誤検知も少なく抑えられる——というのがAnthropicの判断だった。
技術的には筋が通っている。だが、ユーザーとの信頼関係の観点では完全に裏目に出た。
修正された内容
批判を受けて、Anthropicは24時間以内に方針を転換した。
- 蒸留の制限も可視化される。該当リクエストはOpus 4.8にフォールバックし、その旨がユーザーに通知される
- API経由のリクエストでは、拒否理由が
stop_reason: "refusal"として返され、どの分類器がトリガーしたかも明示される - フォールバック時の課金は、Fable 5のプロンプトキャッシュコストが返金される「フォールバッククレジット」で二重課金を回避
つまり、3つのセーフガードすべてが同じルールで動くようになった。
正直、Anthropicの対応は速かった
批判すべき点は明確にある。ユーザーに見えない形で出力品質を変えるのは、たとえ0.03%であっても信頼を損なう行為だ。
一方で、Anthropicの事後対応は正直に言って悪くなかった。「誤った判断だった」と認め、24時間以内に全セーフガードの可視化を決定し、APIレベルでの技術的対処まで含めた修正を発表した。
この一連の動きが示しているのは、AI安全性のジレンマの本質だと思う。安全装置は必要だ。しかしその安全装置が「見えない」とき、それはもはやユーザーを守っているのか、それとも企業の利益を守っているのか。
Fable 5の蒸留制限は、Anthropicが自社の技術的優位性を守るためのものだったとも読める。競合が自社モデルの出力を使って訓練することを防ぐ——それ自体はビジネスとして理解できる。だがそれを「安全性」の名目でユーザーに隠したことが、批判の核心だ。
Fable 5を使うなら知っておくべきこと
今回の修正後、Fable 5のセーフガードは以下のように動作する。
| カテゴリ | 対象 | 動作 | 可視性 |
|---|---|---|---|
| サイバーセキュリティ | 攻撃的サイバー能力 | Opus 4.8にフォールバック | 可視(通知あり) |
| 生物学・化学 | 危険物質情報 | Opus 4.8にフォールバック | 可視(通知あり) |
| 蒸留 | フロンティアLLM開発 | Opus 4.8にフォールバック | 可視に修正済み |
API利用者はstop_reason: "refusal"をハンドリングする必要がある。fallbacksパラメータを設定すれば、サーバー側で自動リトライも可能だ。詳細はAnthropicの公式ドキュメントに記載されている。
前例になるか
AIモデルの「見えない制限」は、おそらくFable 5だけの問題ではない。他社のモデルにも、ユーザーが気づかない形で出力を調整する仕組みが入っている可能性は十分にある。
今回の騒動でAnthropicが示した「全セーフガードの可視化」という方針が、業界のスタンダードになるかどうか。それが、この一件の本当の意味だろう。
関連記事
「危険すぎて非公開」だったAIが、今日から誰でも使える — Claude Fableの正体
Anthropicが最強モデルClaude Mythosを「Claude Fable」として一般公開。Opus 4.8の約2倍の料金で、セキュリティ・推論・コーディングの最前線モデルが使えるようになる。
「AIがAIを作る日」は2年以内に来る — Anthropicが業界に突きつけた"一時停止"の提案
AnthropicがAIの再帰的自己改善について警告。Claudeが社内コードの80%超を執筆、タスク自律遂行時間は4か月で倍増。提案された業界一時停止の中身とIPO直前の思惑を読み解く。
Claudeを悪用した832件のサイバー攻撃を分析 — Anthropicが公開したAI脅威レポートの中身
Anthropicが832アカウントのAI悪用を1年間分析しMITRE ATT&CKにマッピング。AI利用率33%→56%、マルウェア開発67%。LLM ATT&CK Navigatorの内容を解説。