OpenAI Codex CLI — ターミナルAIコーディングの勢力図を塗り替えにきた刺客

OpenAIがついにCLIに本気を出した。それも、片手間の実験プロジェクトではなく、Apache 2.0ライセンスのフルオープンソースで、GitHub Stars 67,000超、コントリビューター400人以上という規模感で殴り込んできた。Codex CLI。ターミナルで動く軽量コーディングエージェントだ。

正直に言う。半年前まで、CLIベースのAIコーディングツールといえばClaude Code一強だった。Anthropicが市場を押さえ、開発者たちは「ターミナルで使うならClaude Code一択」と口を揃えていた。そこにOpenAIが、しかもオープンソースという武器を携えて参入してきたわけだから、この領域は一気に面白くなった。

何ができるのか

Codex CLIは、ターミナル上で動くコーディングエージェントだ。ファイルの読み書き、コードの生成・修正、テストの実行、git操作まで、開発者がターミナルでやることの大半を自律的にこなす。

裏側で動くモデルはGPT-5.4（推奨）、GPT-5.3-Codex、そしてリアルタイム特化のGPT-5.3-Codex-Sparkの3本立て。デフォルトのコンテキストウィンドウは256Kトークン、GPT-5.4なら100万トークンまで拡張できる。Claude Codeの200Kと比べると、単純なスペック上は上回っている。

特筆すべきはサンドボックスの設計思想だ。OSカーネルレベルでの隔離（macOSならSeatbelt、LinuxならLandlock/seccomp）を採用しており、エージェントが暴走してもシステムへの被害を最小限に抑える。アプリケーションレイヤーでの制御に頼るClaude Codeとはアプローチが対照的で、どちらが優れているかは一概に言えないが、「そもそもカーネルが止める」という安心感は確かにある。

長時間タスクとマルチタスク — ここが真骨頂

Codex CLIの本当の強みは、バックグラウンド実行と長時間タスクの安定性にある。

OpenAIのデモでは、GPT-5.3-Codexが約25時間連続で稼働し、一貫性を保ったままコードを出力し続けた。25時間だ。途中でコンテキストが崩壊することもなく、エラーからの復帰も自律的に行う。これは単なるスペック自慢ではなく、実務での「寝ている間にリファクタリングを終わらせておく」という運用が現実的になるということを意味する。

Codexアプリ側との連携もうまくできている。複数のスレッドをプロジェクトごとに整理し、並列で走らせられる。ワークツリーのサポートも組み込まれているので、同じリポジトリに複数のエージェントが同時にアクセスしてもコンフリクトしない。朝起きて、3つのPRが完成済みでレビュー待ちになっている。そういう世界観。

GPT-5.3-Codex-Spark — 1000トークン/秒の衝撃

2026年4月に発表されたGPT-5.3-Codex-Sparkは、Codex CLIの体験を根本から変えるモデルだ。1秒あたり1,000トークン以上を生成する。

このスピードは、「AIの応答を待つ」という感覚をほぼ消し去る。コードの補完やリファクタリングの提案がほぼリアルタイムで返ってくるので、思考の流れが途切れない。Cerebras WSE-3チップとの提携によるインフラ面の最適化が効いている。NVIDIAのGPU以外で本番運用されている初のLLMデプロイメントという点でも、業界的には大きなマイルストーンだ。

ただし、現時点ではテキストオンリーで、コンテキストウィンドウは128K。GPT-5.4の100万トークンと比べると制約はある。スピードを取るか、深い推論を取るかのトレードオフで、タスクの性質によって使い分けるのが現実的だろう。

Codex Agents SDK — マルチエージェント構築の入り口

個人的に一番注目しているのが、Codex Agents SDKの存在だ。

Codex CLIをMCPサーバーとして公開し、OpenAI Agents SDKで束ねることで、カスタムのマルチエージェントパイプラインを構築できる。たとえば「プロジェクトマネージャー」「フロントエンド開発者」「バックエンド開発者」「テスター」といった役割を持つエージェントチームを組み、ハンドオフとガードレール付きで連携させる。

2026年3月にはサブエージェントとカスタムエージェントが一般公開された。~/.codex/agents/にTOMLファイルを置くだけでカスタムエージェントを定義でき、モデルの指定やインストラクションの設定も個別に行える。explorer、worker、defaultという3つのデフォルトサブエージェントも用意されている。

この拡張性は、Claude Codeの「Agent Teams」とは思想が違う。Claude Codeが複数のインスタンスを並列に走らせるアプローチなのに対し、Codex Agents SDKはオーケストレーション層を明示的に設計させる。自由度が高い反面、セットアップのコストも高い。エンジニアリング力が問われる設計だ。

Claude Codeとの比較 — 正直なところ

避けて通れない比較だから率直に書く。

ターミナルタスク（スクリプティング、DevOps系）ではCodex CLIが77.3%対65.4%で明確にリード。一方、コード品質のブラインド評価ではClaude Codeが67%の支持を得てCodex CLIの25%を大きく引き離す。つまり、「速くて正確にシステム操作をこなす」のがCodex、「読みやすく構造化されたコードを書く」のがClaude Code、という棲み分けが見えてくる。

トークン効率も面白い。Figmaからのコード生成ベンチマークで、Claude Codeが約620万トークンを消費したのに対し、Codex CLIは約150万トークンで同等の結果を出した。およそ4倍の効率差。APIコストを気にする開発者にとって、この差は無視できない。

実際、経験豊富な開発者の間では「Claude Codeで機能を実装し、Codexでレビューしてからマージ」というハイブリッドワークフローが定着しつつある。両方使うのが現時点での正解かもしれない。

料金 — 無料の裏側

Codex CLI自体はApache 2.0のオープンソースで、インストールも利用も無料だ。ただし、裏で動くモデルのAPI利用料は発生する。

現状、ChatGPTのFree/Goプランでも利用可能だが、OpenAIは「期間限定」と明言しており、いつ有料化されるかは不透明。Proプラン（月額200ドル）やTeamプラン以上であれば、より潤沢なクレジットでCodexを回せる。

ここが微妙なところだ。「オープンソースで無料」という看板は魅力的だが、実質的にはOpenAIのモデルAPIに依存しているわけで、長期的なコストはOpenAIの価格設定次第。対してClaude Codeも月額制だが、コスト構造は明確。どちらが「安い」かは使い方による。

気になる点

いくつか懸念もある。

まず、コード品質。ベンチマークでClaude Codeに明確に劣る部分があるのは事実で、特に大規模リポジトリでの依存関係を跨いだ変更では差が出やすい。Codex CLIは速度と効率で勝負しているが、「生成されたコードを人間がどれだけ手直しする必要があるか」というトータルコストで見ると、速さだけでは語れない。

次に、サブエージェントの成熟度。2026年3月に一般公開されたばかりで、まだ荒削りな部分がある。GitHub Issueを見ると「バックグラウンドタスクの存在を忘れる」という報告もあり、長時間マルチタスクの信頼性はこれから磨かれるフェーズだろう。

そして、OSSとしての持続可能性。67,000スターは華々しいが、コアの推論エンジンはOpenAIのプロプライエタリモデルに完全依存している。ツール部分がオープンなだけで、知能の部分はクローズドだ。「オープンソース」という言葉が持つ意味を、少し割り引いて受け取る必要がある。

筆者の所感

Codex CLIは、CLIコーディングエージェント市場におけるClaude Code一強体制に、初めて本格的な楔を打ち込んだプロダクトだ。GPT-5.3-Codex-Sparkの圧倒的な速度、OSカーネルレベルのサンドボックス、Agents SDKによる拡張性。どれもClaude Codeにはない独自の強みで、「Claude Codeのクローン」ではなく「別のアプローチで同じ問題を解く」プロダクトとして成立している。

とはいえ、現時点でClaude Codeを完全に置き換えるものではない。コード品質の差は無視できないし、マルチエージェントの信頼性もまだ発展途上だ。両者を併用するのが、2026年4月時点での最も賢い選択だと思う。

ひとつ確かなのは、ターミナルAIコーディングという領域が「一社独占」から「競争市場」に移行したということ。開発者にとって、これは間違いなく良いニュースだ。