Claude Sonnet 5 — SWE-bench 92%、Opus 4.6を「Sonnet価格」で超えたAnthropicの一手
ベンチマークの数字が動く時、業界の力学が変わる。2026年4月1日に Anthropic が静かに投下した Claude Sonnet 5 は、まさにそれだった。
SWE-bench Verified で 92.4%。前世代の Opus 4.6(80.8%)を 12ポイント 上回る。しかもこれは Opus ではなく Sonnet。つまり、$3/$15 という「普段使い料金」のまま、前世代のフラッグシップを通り越した。
4月1日リリースなので当然エイプリルフールを疑ったが、モデル文字列は claude-sonnet-5-20260401 で、Anthropic公式 の claude.ai ではすでに新しいデフォルトモデルとして配信されている。冗談ではなく、ただ淡々と置かれていた。
何が起きているのか
まず事実ベースで今回の変更を整理する。
| 項目 | Sonnet 4.6 | Sonnet 5 | Opus 4.6 |
|---|---|---|---|
| SWE-bench Verified | 70% 台後半 | 92.4% | 80.8% |
| OSWorld-Verified(computer use) | 66% | 88.3% | 72% 台 |
| コンテキスト | 1M(GA) | 2M(GA) | 1M(GA) |
| 価格(入力 / 出力) | $3 / $15 | $3 / $15 | $15 / $75 |
| Adaptive Thinking | 対応 | 強化版 | 対応 |
| モデル文字列 | claude-sonnet-4-6-* |
claude-sonnet-5-20260401 |
claude-opus-4-6-* |
ポイントは3つある。ベンチマークが Opus 4.6 を追い抜いた。値段は据え置き。コンテキスト窓は倍になった。 普通ならこのうち1つでも大きなニュースだが、今回は3つ同時に起きた。
OSWorld-Verified の 88.3% という数字は、人間のエキスパート平均(72.4%)を 16 ポイント近く上回る。コンピュータ操作系のエージェントでは「人間より速く、人間より迷わない」が現実の領域に入ってきた。
なぜ「12ポイント」が異常なのか
SWE-bench Verified は GitHub の実在バグを題材にしたタスク集で、近年 LLM 各社が最もしのぎを削っているベンチマークだ。ここで 1 ポイント上げるだけでも大仕事、というのが業界の共通認識だった。Claude の Opus 4.6 が 80.8% に到達した時ですら「ついに 80 台を突破した」と騒がれたほどで、そこからさらに 12 ポイント積んだ Sonnet 5 は、この半年の進化ペースから見ると明らかに「階段を2段飛ばし」した数字だ。
もう少し噛み砕くと、SWE-bench で 92% というのは「ほとんどの現実的なリポジトリ修正タスクを、人間の手直しをほぼ挟まずに通せる」水準に近い。ここまで来ると議論は「AIが解けるか解けないか」ではなく、「人間がレビューに追いつけるか」に移り始める。
Anthropic 側は値段を据え置きにしたので、単純な費用対性能で言えば Sonnet 4.6 → Sonnet 5 は 無料アップグレード だ。Opus 4.6 を指名買いしていた利用者の多くは、現時点で Sonnet 5 に移ったほうが速くて安い、というねじれた状況になっている。
2M コンテキスト — 「普段使い」に持ち込まれた異次元
Sonnet 4.6 で 1M コンテキストが標準料金化した時点で、筆者は「コードベース丸投げが現実的になった」と書いた。Sonnet 5 ではこの窓がさらに倍、2M トークン になる。しかも価格は変わらない。
2M というと想像しづらいが、ざっくり次のような量だ。
- 中規模アプリのソース一式(400〜600ファイル)+依存ライブラリの主要部分
- 書籍 1,500 冊相当のテキスト
- 半年〜1年分の PR ログと議事録
これが1リクエストに収まる。Opus 4.6 時代に悩んだ「どれを削るか」の判断が、Sonnet 5 ではさらに要らなくなる。筆者自身、Opus 4.6 の 1M を 2ヶ月使ってきて「そこまでコンテキストを埋めることはそう多くない」と油断していたが、2M に増えた途端「じゃあ全部入れてみるか」という心理が先に立つ。窓が広がるだけで使い方は変わる。
とはいえ、2M トークンを本気で埋めると当然処理は遅い。インタラクティブな対話には不向きで、バッチ的な"丸呑み"タスクにこそ真価が出る。新規プロジェクト引き継ぎ、長期セッションのメタ分析、リサーチ論文のまとめ読みといった用途だ。
Adaptive Thinking の再強化
Sonnet 4.6 で budget_tokens が非推奨になって thinking: {type: "adaptive"} が標準になった流れは Sonnet 5 でさらに押し進められている。Anthropic は公式のリリースノートで「アダプティブ思考アーキテクチャを更新し、推論深度の配分効率を改善した」と表現している。
実務レベルで何が起きるかと言うと、簡単なクエリでは瞬時に返事が来て、難しい問題では勝手に深く考える。この挙動が以前より強く効くようになった。Sonnet 4.6 の段階でも adaptive thinking は機能していたが、Sonnet 5 では「簡単タスクでの速さ」と「難問での粘り」のメリハリがはっきり分かれる。
effort パラメータの minimal / low / medium / high / max は今回も健在で、Sonnet 5 では medium をデフォルトにして、重い設計レビューだけ high に上げるのが落としどころになりそうだ。
Opus 4.6 の立ち位置はどうなるのか
正直ここが今回のニュースで一番面白い論点だと思っている。Anthropic は Opus 4.7 を準備中と言われており、Claude Code からのソースコードリークでも opus-4-7 と sonnet-4-8 の文字列が見つかっていた。Sonnet 5 はその前倒しとも、別系統の開発ラインの合流とも取れる。
一時的にせよ、Opus 4.6 を Sonnet 5 が価格・性能の両方で上回るという珍しい状態が発生した。現行の Opus 4.6 は引き続き 128K 出力や大規模な自律エージェント用途で強みを持つが、「SWE-bench でスコアを出してほしいだけ」のケースでは Sonnet 5 が即答の選択肢になる。Claude Code の既定モデルも順次 Sonnet 5 へ切り替わっているとの報告が出ており、多くの利用者は意識せずに Sonnet 5 の恩恵を受け始めている。
Opus 4.7 が出れば当然この順序は戻るだろう。ただし、そのとき Sonnet 5 は「Opus 4.6 相当を Sonnet 価格で使える永続選択肢」として残る。つまり Anthropic は、Opus 4.6 をサイレントに "廉価枠" へ降格させたとも言える。
2M + 92% が拓く3つの「それもできるのか」
機能紹介で終わりたくないので、Sonnet 5 で新しく現実味を帯びるユースケースを3つだけ挙げる。
1. リファクタ計画が「読む AI → 書く AI」に繋がる
従来は「Claude に読ませる」と「Claude に書かせる」を別工程にしていた。2M コンテキストなら、リポジトリ全体を読み込ませた上でそのまま修正 PR を生成させる、という片道運転ができる。Cursor や Claude Code のエージェントループに組み込めば、手動の「文脈貼り替え」が発生しない。これが本当に安定すると、PR のレビューを人間が担当するという役割分担が加速する。
2. 「長期記憶係としての LLM」が日常運用に入る
半年分の Slack ログ、議事録、設計ドキュメントを一度に渡して「なぜこの実装方針になったか」を聞ける運用は、1M 時代でもギリギリ現実的だった。2M 時代はここに コード履歴+PR 説明+テスト結果を追加で放り込めるようになる。チームの知識を人間の記憶と Notion の検索に頼らず、Claude に横断させる設計が成立する。企業の「ナレッジマネジメント」という古い概念が、モデルの中に格納される側に寄っていく。
3. マルチモーダル操作エージェントの地力が上がる
OSWorld-Verified 88.3% という数字は、ブラウザ操作や OS レベルの自動化が「たまに成功する芸」から「期待値として動くもの」に変わるラインだ。メール仕分け、請求書処理、リサーチエージェントなど、人間の手続き作業を任せる領域で、Sonnet 5 を裏側に置いたツールが一斉に出てくる可能性がある。Perplexity の Computer や Claude Cowork のようなエージェント型プロダクトにとっても、モデル側の底上げはそのまま製品価値の底上げになる。
懸念点と「そこまで持ち上げるのは早い」部分
良いことばかり書いても信用されないので、実機で触った限りの気になる点も並べる。
発表がエイプリルフール — これは本当にタイミングが悪い。リリースノートや claude.ai 上でちゃんと配信されているので冗談ではないのだが、4/1 リリースというだけで最初の半日はX上でも「ネタでは?」と疑われていた。Anthropic が普段コミュニケーションが静かなタイプだけに、本気のメジャーアップデートで 4/1 を選んだのは戦略ミスに近い。
2M コンテキストの"本気利用"は重い — 1.5M 以上を埋めると処理時間が分単位に伸びる場面がある。インタラクティブ用途では 300K〜500K あたりが快適ゾーンで、2M はあくまで「バッチで丸呑み」の用途にキャップされると思ったほうがいい。
ベンチマークの数字と"体感"のズレ — SWE-bench 92.4% は確かに凄いが、現場で触っていると Opus 4.6 より明らかに速い一方、難問への"粘り"は Opus のほうがまだ上に感じる場面もある。adaptive thinking が改善されたとはいえ、effort: max を指定したときの深さは Opus 4.6 のほうが安定している印象だ。ここは今後数週間、複数ユーザーの検証を待ちたい。
Opus 4.6 を API で指名している人のマイグレーション — 既存のシステムで claude-opus-4-6-* を決め打ちしている場合、Sonnet 5 への切り替えはコードと設定の両方に手を入れる必要がある。コストは下がるので経営的には嬉しい話だが、本番システムでは動作検証が避けられない。
まとめ
Sonnet 5 を一言で表現するなら、「Opus 4.6 を ほぼ Sonnet 価格で常用できるようにした アップデート」だ。4月のリリースとしては今年一番のインパクトで、SWE-bench 92% という数字は「AIがコードを書ける」時代の水準を一段押し上げた。
今やるべきアクションはシンプルで、
- claude.ai / Claude Code を使っているなら、既定モデルが Sonnet 5 に切り替わっているか確認する
- API 利用者は
claude-sonnet-5-20260401を選択し、まずはeffort: medium+ adaptive thinking で Sonnet 4.6 時代の基準と比較する - Opus 4.6 を使っていたタスクの一部を Sonnet 5 に移管し、コストを実測する
この 3 つだけで、多くの開発者にとって月次コストが下がり、応答速度が上がる。Opus 4.7 を待つ必要は必ずしもない。
合わせて読みたい:
関連記事
Claude Sonnet 4.6 — 1Mトークンが「据え置き価格」でGAになった意味
Claude Sonnet 4.6が1Mトークンコンテキストを標準料金でGA化。Opus 4.6との使い分け、料金、adaptive thinkingの実力、実務での向き不向きを整理する。
Claude Codeのソースコードがnpm経由で全部見えた日 — 流出から判明した未公開モデルと隠し機能
2026年3月31日にClaude Codeのソース約51万行がnpm経由で流出。未公開モデルOpus 4.7や隠し機能autoDream・KAIROSの正体、ユーザーがやるべき対応まで整理する。
Claude Mythos Preview — 「強すぎるから非公開」という判断は正しいのか
Claude Mythos Previewの能力・Project Glasswingの全容を解説。数千件のゼロデイ脆弱性を発見したAnthropicの最強モデルが非公開とされた理由と意味