Claude Sonnet 5 — SWE-bench 92%、Opus 4.6を「Sonnet価格」で超えたAnthropicの一手

Claude Sonnet 5

ベンチマークの数字が動く時、業界の力学が変わる。2026年4月1日に Anthropic が静かに投下した Claude Sonnet 5 は、まさにそれだった。

SWE-bench Verified で 92.4%。前世代の Opus 4.6（80.8%）を 12ポイント 上回る。しかもこれは Opus ではなく Sonnet。つまり、$3/$15 という「普段使い料金」のまま、前世代のフラッグシップを通り越した。

4月1日リリースなので当然エイプリルフールを疑ったが、モデル文字列は claude-sonnet-5-20260401 で、Anthropic公式の claude.ai ではすでに新しいデフォルトモデルとして配信されている。冗談ではなく、ただ淡々と置かれていた。

何が起きているのか

まず事実ベースで今回の変更を整理する。

項目	Sonnet 4.6	Sonnet 5	Opus 4.6
SWE-bench Verified	70% 台後半	92.4%	80.8%
OSWorld-Verified（computer use）	66%	88.3%	72% 台
コンテキスト	1M（GA）	2M（GA）	1M（GA）
価格（入力 / 出力）	$3 / $15	$3 / $15	$15 / $75
Adaptive Thinking	対応	強化版	対応
モデル文字列	`claude-sonnet-4-6-*`	`claude-sonnet-5-20260401`	`claude-opus-4-6-*`

ポイントは3つある。ベンチマークが Opus 4.6 を追い抜いた。値段は据え置き。コンテキスト窓は倍になった。 普通ならこのうち1つでも大きなニュースだが、今回は3つ同時に起きた。

OSWorld-Verified の 88.3% という数字は、人間のエキスパート平均（72.4%）を 16 ポイント近く上回る。コンピュータ操作系のエージェントでは「人間より速く、人間より迷わない」が現実の領域に入ってきた。

なぜ「12ポイント」が異常なのか

SWE-bench Verified は GitHub の実在バグを題材にしたタスク集で、近年 LLM 各社が最もしのぎを削っているベンチマークだ。ここで 1 ポイント上げるだけでも大仕事、というのが業界の共通認識だった。Claude の Opus 4.6 が 80.8% に到達した時ですら「ついに 80 台を突破した」と騒がれたほどで、そこからさらに 12 ポイント積んだ Sonnet 5 は、この半年の進化ペースから見ると明らかに「階段を2段飛ばし」した数字だ。

もう少し噛み砕くと、SWE-bench で 92% というのは「ほとんどの現実的なリポジトリ修正タスクを、人間の手直しをほぼ挟まずに通せる」水準に近い。ここまで来ると議論は「AIが解けるか解けないか」ではなく、「人間がレビューに追いつけるか」に移り始める。

Anthropic 側は値段を据え置きにしたので、単純な費用対性能で言えば Sonnet 4.6 → Sonnet 5 は 無料アップグレード だ。Opus 4.6 を指名買いしていた利用者の多くは、現時点で Sonnet 5 に移ったほうが速くて安い、というねじれた状況になっている。

2M コンテキスト — 「普段使い」に持ち込まれた異次元

Sonnet 4.6 で 1M コンテキストが標準料金化した時点で、筆者は「コードベース丸投げが現実的になった」と書いた。Sonnet 5 ではこの窓がさらに倍、2M トークン になる。しかも価格は変わらない。

2M というと想像しづらいが、ざっくり次のような量だ。

中規模アプリのソース一式（400〜600ファイル）＋依存ライブラリの主要部分
書籍 1,500 冊相当のテキスト
半年〜1年分の PR ログと議事録

これが1リクエストに収まる。Opus 4.6 時代に悩んだ「どれを削るか」の判断が、Sonnet 5 ではさらに要らなくなる。筆者自身、Opus 4.6 の 1M を 2ヶ月使ってきて「そこまでコンテキストを埋めることはそう多くない」と油断していたが、2M に増えた途端「じゃあ全部入れてみるか」という心理が先に立つ。窓が広がるだけで使い方は変わる。

とはいえ、2M トークンを本気で埋めると当然処理は遅い。インタラクティブな対話には不向きで、バッチ的な"丸呑み"タスクにこそ真価が出る。新規プロジェクト引き継ぎ、長期セッションのメタ分析、リサーチ論文のまとめ読みといった用途だ。

Adaptive Thinking の再強化

Sonnet 4.6 で budget_tokens が非推奨になって thinking: {type: "adaptive"} が標準になった流れは Sonnet 5 でさらに押し進められている。Anthropic は公式のリリースノートで「アダプティブ思考アーキテクチャを更新し、推論深度の配分効率を改善した」と表現している。

実務レベルで何が起きるかと言うと、簡単なクエリでは瞬時に返事が来て、難しい問題では勝手に深く考える。この挙動が以前より強く効くようになった。Sonnet 4.6 の段階でも adaptive thinking は機能していたが、Sonnet 5 では「簡単タスクでの速さ」と「難問での粘り」のメリハリがはっきり分かれる。

effort パラメータの minimal / low / medium / high / max は今回も健在で、Sonnet 5 では medium をデフォルトにして、重い設計レビューだけ high に上げるのが落としどころになりそうだ。

Opus 4.6 の立ち位置はどうなるのか

正直ここが今回のニュースで一番面白い論点だと思っている。Anthropic は Opus 4.7 を準備中と言われており、Claude Code からのソースコードリークでも opus-4-7 と sonnet-4-8 の文字列が見つかっていた。Sonnet 5 はその前倒しとも、別系統の開発ラインの合流とも取れる。

一時的にせよ、Opus 4.6 を Sonnet 5 が価格・性能の両方で上回るという珍しい状態が発生した。現行の Opus 4.6 は引き続き 128K 出力や大規模な自律エージェント用途で強みを持つが、「SWE-bench でスコアを出してほしいだけ」のケースでは Sonnet 5 が即答の選択肢になる。Claude Code の既定モデルも順次 Sonnet 5 へ切り替わっているとの報告が出ており、多くの利用者は意識せずに Sonnet 5 の恩恵を受け始めている。

Opus 4.7 が出れば当然この順序は戻るだろう。ただし、そのとき Sonnet 5 は「Opus 4.6 相当を Sonnet 価格で使える永続選択肢」として残る。つまり Anthropic は、Opus 4.6 をサイレントに "廉価枠" へ降格させたとも言える。

2M + 92% が拓く3つの「それもできるのか」

機能紹介で終わりたくないので、Sonnet 5 で新しく現実味を帯びるユースケースを3つだけ挙げる。

1. リファクタ計画が「読む AI → 書く AI」に繋がる

従来は「Claude に読ませる」と「Claude に書かせる」を別工程にしていた。2M コンテキストなら、リポジトリ全体を読み込ませた上でそのまま修正 PR を生成させる、という片道運転ができる。Cursor や Claude Code のエージェントループに組み込めば、手動の「文脈貼り替え」が発生しない。これが本当に安定すると、PR のレビューを人間が担当するという役割分担が加速する。

2. 「長期記憶係としての LLM」が日常運用に入る

半年分の Slack ログ、議事録、設計ドキュメントを一度に渡して「なぜこの実装方針になったか」を聞ける運用は、1M 時代でもギリギリ現実的だった。2M 時代はここに コード履歴＋PR 説明＋テスト結果を追加で放り込めるようになる。チームの知識を人間の記憶と Notion の検索に頼らず、Claude に横断させる設計が成立する。企業の「ナレッジマネジメント」という古い概念が、モデルの中に格納される側に寄っていく。

3. マルチモーダル操作エージェントの地力が上がる

OSWorld-Verified 88.3% という数字は、ブラウザ操作や OS レベルの自動化が「たまに成功する芸」から「期待値として動くもの」に変わるラインだ。メール仕分け、請求書処理、リサーチエージェントなど、人間の手続き作業を任せる領域で、Sonnet 5 を裏側に置いたツールが一斉に出てくる可能性がある。Perplexity の Computer や Claude Cowork のようなエージェント型プロダクトにとっても、モデル側の底上げはそのまま製品価値の底上げになる。

懸念点と「そこまで持ち上げるのは早い」部分

良いことばかり書いても信用されないので、実機で触った限りの気になる点も並べる。

発表がエイプリルフール — これは本当にタイミングが悪い。リリースノートや claude.ai 上でちゃんと配信されているので冗談ではないのだが、4/1 リリースというだけで最初の半日はX上でも「ネタでは？」と疑われていた。Anthropic が普段コミュニケーションが静かなタイプだけに、本気のメジャーアップデートで 4/1 を選んだのは戦略ミスに近い。

2M コンテキストの"本気利用"は重い — 1.5M 以上を埋めると処理時間が分単位に伸びる場面がある。インタラクティブ用途では 300K〜500K あたりが快適ゾーンで、2M はあくまで「バッチで丸呑み」の用途にキャップされると思ったほうがいい。

ベンチマークの数字と"体感"のズレ — SWE-bench 92.4% は確かに凄いが、現場で触っていると Opus 4.6 より明らかに速い一方、難問への"粘り"は Opus のほうがまだ上に感じる場面もある。adaptive thinking が改善されたとはいえ、effort: max を指定したときの深さは Opus 4.6 のほうが安定している印象だ。ここは今後数週間、複数ユーザーの検証を待ちたい。

Opus 4.6 を API で指名している人のマイグレーション — 既存のシステムで claude-opus-4-6-* を決め打ちしている場合、Sonnet 5 への切り替えはコードと設定の両方に手を入れる必要がある。コストは下がるので経営的には嬉しい話だが、本番システムでは動作検証が避けられない。

まとめ

Sonnet 5 を一言で表現するなら、「Opus 4.6 を ほぼ Sonnet 価格で常用できるようにした アップデート」だ。4月のリリースとしては今年一番のインパクトで、SWE-bench 92% という数字は「AIがコードを書ける」時代の水準を一段押し上げた。

今やるべきアクションはシンプルで、

claude.ai / Claude Code を使っているなら、既定モデルが Sonnet 5 に切り替わっているか確認する
API 利用者は claude-sonnet-5-20260401 を選択し、まずは effort: medium + adaptive thinking で Sonnet 4.6 時代の基準と比較する
Opus 4.6 を使っていたタスクの一部を Sonnet 5 に移管し、コストを実測する

この 3 つだけで、多くの開発者にとって月次コストが下がり、応答速度が上がる。Opus 4.7 を待つ必要は必ずしもない。

合わせて読みたい:

Anthropic公式サイト（Claude）