コードの欠陥を黙認する確率が4分の1に — Claude Opus 4.8が変えたもの
LLMに長いコードを書かせると、たまに自分で埋め込んだバグをスルーして「完了しました」と報告してくることがある。Claude Code でリポジトリ全体をリファクタリングさせた翌朝、テストが3件落ちていて原因を追うと Claude 自身が入れた型エラーだった——という経験がある人は少なくないだろう。
Anthropicが5月28日にリリースしたClaude Opus 4.8は、この「黙認」の頻度を前モデル比で約4分の1に減らしたという。バージョン番号の上がり幅は0.1。だが中身を見ると、数字以上に意味のあるアップデートになっている。
ベンチマークはほぼ全勝
まず数字を並べる。
| ベンチマーク | Opus 4.7 | Opus 4.8 | GPT-5.5 | Gemini 3.1 Pro |
|---|---|---|---|---|
| SWE-bench Verified | 87.6% | 88.6% | — | — |
| SWE-bench Pro | 64.3% | 69.2% | — | — |
| MCP-Atlas | 77.3% | 82.2% | — | — |
| BrowseComp(単体) | 79.3% | 84.3% | — | — |
| GDPval-AA | 1753 | 1890 | 1769 | 1314 |
GDPval-AAは知識作業の総合評価で、GPT-5.5の1769を明確に上回った。Gemini 3.1 Proとは500点以上の差がついている。SWE-bench Proのジャンプ(64.3→69.2%)はエージェント型コーディングの実用性に直結するので、ここが一番大きい。
ただし、エージェント型ターミナルコーディングではGPT-5.5がまだリードしているという報告もある。「全部勝った」わけではない。
Dynamic Workflows — 数百のサブエージェントを並列で走らせる
今回のリリースで最もインパクトが大きいのは、Claude Code向けの新機能Dynamic Workflows(リサーチプレビュー)だろう。
従来のClaude Codeは、1つのセッションで1つのタスクを順番に処理していた。Dynamic Workflowsでは、Claudeがオーケストレーションスクリプトを自ら書き、数十〜数百のサブエージェントを並列で起動する。各サブエージェントは独立したアングルから問題に取り組み、互いの結果を検証し、収束するまで反復する。
Anthropicが挙げた例は「数十万行規模のコードベース全体のマイグレーションを、キックオフからマージまで自律的に完了させる」というもの。既存のテストスイートを合格基準にして、全部通るまでサブエージェントが修正を続ける。サブエージェントの上限は1セッション1,000体。
正直、リサーチプレビューなので本番投入はまだ早い。だが方向性としては「Claude Codeを1人の優秀なエンジニア」から「チームリーダー」に変える試みであり、うまく動けば開発ワークフローの構造が変わる。
effort制御 — 考える深さを手動で切り替える
claude.aiとCoworkのモデル選択欄にeffort制御が追加された。high / medium / low の3段階で、Claudeが応答にかける「考える時間」を手動で切り替えられる。
簡単な質問にはlowで即答させ、複雑なアーキテクチャ設計にはhighで深く考えさせる。これまでは全リクエストが同じ推論コストをかけていたので、日常的に使う分にはコスト効率が改善する。
開発者向けには、Messages APIにmid-conversation system messagesが追加された。会話の途中でシステムプロンプトを差し替えられるようになり、プロンプトキャッシュを壊さずにタスク途中で指示を更新できる。地味だが、長時間のエージェントセッションを運用する上では必須レベルの改善だ。
価格は据え置き、Fast Modeは値下げ
通常モードの価格はOpus 4.7と変わらない。入力$5 / 出力$25(100万トークンあたり)。
一方、Fast Modeは約2.5〜3倍安くなった。Fast Modeは出力速度を優先するモードで、Claude Codeのサブエージェントを大量に動かすDynamic Workflowsとの相性がよい。大量のサブエージェントを高速かつ安価に回せるようになったことで、Dynamic Workflowsが現実的なコスト範囲に収まる設計になっている。
正直に言えば「堅実」
Opus 4.8は派手なリリースではない。Anthropic自身が「modest but tangible improvement」と表現している。
だが、コードの欠陥見逃し率が4分の1になったこと、不確実な部分を自分から「ここは確証がない」と申告するようになったこと——この2つは、毎日Claude Codeを使っている人間からすると体感に直結する改善だ。いままで「Claudeが書いたコードだから大丈夫だろう」と油断してレビューを飛ばしていた部分に、Claudeのほうから「ここ、ちょっと怪しいです」と声をかけてくれるイメージ。
Dynamic Workflowsが本格稼働すれば、数百のサブエージェントが互いのコードをレビューし合う構図も見えてくる。人間のコードレビューを代替するのではなく、Claude同士で事前にフィルタリングし、人間に上がってくる時点でのコード品質を底上げする。そうなると、開発チームの「レビュー待ち」のボトルネックが根本的に変わるかもしれない。
Mythos(Claudeの最上位モデル)の一般提供も数週間以内と予告されている。Opus 4.8は、そのMythosに向けた「信頼性の土台固め」という位置づけだろう。地味だが、こういう改善を積み重ねるメーカーのほうが長期的には信頼できる。
関連記事
Claude Opus 4.7が今週来る — 4.6からの進化と、Figma株が落ちた本当の理由
Anthropicが今週リリース予定のClaude Opus 4.7の全貌。1Mコンテキスト維持、MCPトークン30%削減、SWE-bench改善、同時発表のAIデザインツールがFigma/Wixを震わせた理由を解説
Claude Sonnet 5 — SWE-bench 92%、Opus 4.6を「Sonnet価格」で超えたAnthropicの一手
Claude Sonnet 5がSWE-bench Verified 92.4%を記録し、Opus 4.6を12ポイント上回った。据え置き価格・2Mコンテキスト・強化されたadaptive thinkingを実機目線で整理する。
Claude Sonnet 4.6 — 1Mトークンが「据え置き価格」でGAになった意味
Claude Sonnet 4.6が1Mトークンコンテキストを標準料金でGA化。Opus 4.6との使い分け、料金、adaptive thinkingの実力、実務での向き不向きを整理する。