FlowTune Media

コードの欠陥を黙認する確率が4分の1に — Claude Opus 4.8が変えたもの

LLMに長いコードを書かせると、たまに自分で埋め込んだバグをスルーして「完了しました」と報告してくることがある。Claude Code でリポジトリ全体をリファクタリングさせた翌朝、テストが3件落ちていて原因を追うと Claude 自身が入れた型エラーだった——という経験がある人は少なくないだろう。

Anthropicが5月28日にリリースしたClaude Opus 4.8は、この「黙認」の頻度を前モデル比で約4分の1に減らしたという。バージョン番号の上がり幅は0.1。だが中身を見ると、数字以上に意味のあるアップデートになっている。

ベンチマークはほぼ全勝

まず数字を並べる。

ベンチマーク Opus 4.7 Opus 4.8 GPT-5.5 Gemini 3.1 Pro
SWE-bench Verified 87.6% 88.6%
SWE-bench Pro 64.3% 69.2%
MCP-Atlas 77.3% 82.2%
BrowseComp(単体) 79.3% 84.3%
GDPval-AA 1753 1890 1769 1314

GDPval-AAは知識作業の総合評価で、GPT-5.5の1769を明確に上回った。Gemini 3.1 Proとは500点以上の差がついている。SWE-bench Proのジャンプ(64.3→69.2%)はエージェント型コーディングの実用性に直結するので、ここが一番大きい。

ただし、エージェント型ターミナルコーディングではGPT-5.5がまだリードしているという報告もある。「全部勝った」わけではない。

Dynamic Workflows — 数百のサブエージェントを並列で走らせる

今回のリリースで最もインパクトが大きいのは、Claude Code向けの新機能Dynamic Workflows(リサーチプレビュー)だろう。

従来のClaude Codeは、1つのセッションで1つのタスクを順番に処理していた。Dynamic Workflowsでは、Claudeがオーケストレーションスクリプトを自ら書き、数十〜数百のサブエージェントを並列で起動する。各サブエージェントは独立したアングルから問題に取り組み、互いの結果を検証し、収束するまで反復する。

Anthropicが挙げた例は「数十万行規模のコードベース全体のマイグレーションを、キックオフからマージまで自律的に完了させる」というもの。既存のテストスイートを合格基準にして、全部通るまでサブエージェントが修正を続ける。サブエージェントの上限は1セッション1,000体。

正直、リサーチプレビューなので本番投入はまだ早い。だが方向性としては「Claude Codeを1人の優秀なエンジニア」から「チームリーダー」に変える試みであり、うまく動けば開発ワークフローの構造が変わる。

effort制御 — 考える深さを手動で切り替える

claude.aiとCoworkのモデル選択欄にeffort制御が追加された。high / medium / low の3段階で、Claudeが応答にかける「考える時間」を手動で切り替えられる。

簡単な質問にはlowで即答させ、複雑なアーキテクチャ設計にはhighで深く考えさせる。これまでは全リクエストが同じ推論コストをかけていたので、日常的に使う分にはコスト効率が改善する。

開発者向けには、Messages APIにmid-conversation system messagesが追加された。会話の途中でシステムプロンプトを差し替えられるようになり、プロンプトキャッシュを壊さずにタスク途中で指示を更新できる。地味だが、長時間のエージェントセッションを運用する上では必須レベルの改善だ。

価格は据え置き、Fast Modeは値下げ

通常モードの価格はOpus 4.7と変わらない。入力$5 / 出力$25(100万トークンあたり)。

一方、Fast Modeは約2.5〜3倍安くなった。Fast Modeは出力速度を優先するモードで、Claude Codeのサブエージェントを大量に動かすDynamic Workflowsとの相性がよい。大量のサブエージェントを高速かつ安価に回せるようになったことで、Dynamic Workflowsが現実的なコスト範囲に収まる設計になっている。

正直に言えば「堅実」

Opus 4.8は派手なリリースではない。Anthropic自身が「modest but tangible improvement」と表現している。

だが、コードの欠陥見逃し率が4分の1になったこと、不確実な部分を自分から「ここは確証がない」と申告するようになったこと——この2つは、毎日Claude Codeを使っている人間からすると体感に直結する改善だ。いままで「Claudeが書いたコードだから大丈夫だろう」と油断してレビューを飛ばしていた部分に、Claudeのほうから「ここ、ちょっと怪しいです」と声をかけてくれるイメージ。

Dynamic Workflowsが本格稼働すれば、数百のサブエージェントが互いのコードをレビューし合う構図も見えてくる。人間のコードレビューを代替するのではなく、Claude同士で事前にフィルタリングし、人間に上がってくる時点でのコード品質を底上げする。そうなると、開発チームの「レビュー待ち」のボトルネックが根本的に変わるかもしれない。

Mythos(Claudeの最上位モデル)の一般提供も数週間以内と予告されている。Opus 4.8は、そのMythosに向けた「信頼性の土台固め」という位置づけだろう。地味だが、こういう改善を積み重ねるメーカーのほうが長期的には信頼できる。

関連記事