Claude Opus 4.6を1ヶ月使った所感 — 100万トークンとエージェントチームの実力

Claude Opus 4.6

Anthropicが2月5日にリリースしたClaude Opus 4.6を、約2ヶ月間、主に開発業務とリサーチで使い込んできた。率直に言って、コーディング用途ではこれが現時点のベストだと思っている。ただし、万能ではない。

100万トークンが「普通」になった

Opus 4.6最大のアップデートは、1Mトークンのコンテキストウィンドウが正式公開（GA）されたことだ。ベータではなく、正式に。これは約750冊分の書籍に相当する。

実務でこれがどう効くかというと、大規模コードベースの全体像を一度に渡せる。従来は「このファイルとこのファイルを参照して」と手動でコンテキストを管理する必要があったが、Opus 4.6ではプロジェクト全体のコードを丸ごと食わせて「このAPIのリファクタリング計画を立てて」と言える。コンテキストの管理コストが激減した。

さらに、コンテキスト圧縮（コンパクション）機能が搭載され、長時間のセッションでもコンテキスト上限にぶつかりにくくなった。Claudeが自身のコンテキストを要約・圧縮しながら作業を続けるため、数時間に及ぶ開発セッションでも会話が途切れない。

出力も128Kトークンまで拡張された。長大な実装コードやドキュメントを一度に生成できるのは地味にありがたい。

適応型思考 — 考える深さが変わる

もうひとつの注目機能がAdaptive Thinking（適応型思考）だ。問題の難易度に応じて、Claudeが「どれくらい深く考えるか」を自動で判断する。

簡単な質問には即座に答え、複雑なコーディング問題には数十秒かけて段階的に推論する。API利用時には thinking: {type: "adaptive"} で有効化でき、さらに max レベルを指定すれば最高精度の推論が得られる。

これは料金に直結する話でもある。深く考えるほどトークンを消費するので、すべての質問にmax effortを使うとコストが膨らむ。adaptiveモードはそのバランスを自動で取ってくれる。

SWE-bench 80.8%の意味

Opus 4.6はSWE-bench Verifiedで80.8%を記録している。Sonnet 4.6も79.6%で僅差だが、Opusのほうが複雑なタスクでの安定性が高い印象だ。

実務での体感としては、50〜100行程度の中規模な実装であればほぼ一発で動くコードを書いてくる。型定義の整合性やエッジケースの処理も、以前のバージョンに比べて明らかに改善されている。

ただし、500行を超えるような大規模な実装になると、途中でコンテキストを見失って整合性が崩れることがある。これはどのLLMでも同じだが、「80.8%＝完璧」ではない、という点は強調しておきたい。

エージェントチーム

Claude Codeでは、複数のエージェントがチームとして協働する「エージェントチーム」機能が追加された。1つのタスクを分割し、それぞれのエージェントが担当部分を並列で作業する。

コンセプトはCursor 3のAgents Windowに近いが、Claude Codeのエージェントチームはターミナルベースで動く点が異なる。GUIよりもCLIを好む開発者には刺さるだろう。

料金 — 高いか、妥当か

項目	価格
入力	$15 / 1Mトークン
出力	$75 / 1Mトークン
1Mコンテキスト	ベータ（200K超はプレミアム料金）

正直に言えば、高い。GPT-5.4やGemini 3.1 Proと比較すると明らかに高価だ。Gemini 3.1 Proは$2/$12で、Opusの約1/6の価格。性能差を考慮しても、コスト意識の高いプロジェクトではGeminiのほうが合理的な選択になる場面は多い。

一方で、Claude Proプラン（月額$20）でWebアプリ経由でOpus 4.6を使うなら、APIコストを気にせず試せる。個人利用ならこちらが現実的だ。

微妙な点

コーディング以外の用途—たとえば日本語の文章作成—では、Opus 4.6の出力はやや硬い。ビジネス文書には向くが、カジュアルな文体を求めるとぎこちなさが残る。この点ではGPT-5.4のほうが自然な日本語を書く。

また、1Mコンテキストがまだベータ扱いで、200Kトークンを超える部分にプレミアム料金がかかる点も注意が必要だ。大量のコードを流し込むと思わぬコストが発生する。

結論

開発者がメインのLLMとして使うなら、現時点でOpus 4.6は最有力候補だと思う。特にClaude Codeとの組み合わせは強力で、エージェントチームによる並列開発は作業効率を大きく変える。ただしコスト面ではGemini 3.1 Proに分があり、日本語のカジュアルな文章生成ではGPT-5.4に分がある。用途に応じて使い分けるのが2026年の正解だろう。

Claude公式サイト

Claude Opus 4.6を1ヶ月使った所感 — 100万トークンとエージェントチームの実力

100万トークンが「普通」になった

適応型思考 — 考える深さが変わる

SWE-bench 80.8%の意味

エージェントチーム

料金 — 高いか、妥当か

微妙な点

結論

関連記事

コードの欠陥を黙認する確率が4分の1に — Claude Opus 4.8が変えたもの

GPT-5.5とClaude Opus 4.7、どちらが「使える」か — 同じ週に出た2つのフロンティアモデルを並べてみた

Claude Opus 4.7が今週来る — 4.6からの進化と、Figma株が落ちた本当の理由