FlowTune Media

Codex CLIに「話しかけるコーディング」が来た — OpenAIの4/10大型アップデートで何が変わるのか

先週までのCodex CLIが「キーボードで叩く軽量エージェント」だったとすると、今週からは「マイクに話しかけて動かせる作業机」に近い。少しだけ大げさに聞こえるかもしれないが、2026年4月10日付のCodex CLIチェンジログを一通り読んだ印象は、本当にそれくらいの変化量だ。

リアルタイム音声、MCP Appsの拡張、リモート実行まわりの整理——見出しは複数あるのだが、根っこは一つ。「Codex CLIを、開発者の手元でだけ動かす孤立ツールから脱却させる」という方向にそろって振れている。

リアルタイム音声がv2 WebRTCに切り替わった

まず一番わかりやすい変化から。Realtime Voiceセッションのデフォルト経路が、新しい v2 WebRTCパスになった。ボイス選択がセッションごとに切り替えられるようになり、TUI側でもネイティブにメディアをハンドリングできる。

音声インターフェイス自体は初回リリース時点のCodex CLIから用意されていたが、当時は「音声で質問できる」レベルだった。v2ではここが一段変わる。Realtime V2は、バックグラウンドエージェントの作業進捗をしゃべりながら流せる。アクティブな応答が終わるまで次のターンをキューに積んでおき、完了したら自動で続きに移るという挙動になった。

これが地味にすごい。Codex CLIに「git rebase してテスト流して結果を要約して」と喋った後、手元で別のことをしている間にエージェントが進行状況を話し続けてくれる。Siriに頼み事をしたら返事が全部終わるまで黙って待たなければいけない、あのストレスがターミナルエージェントには要らなくなる。

個人的に気に入っているのは、音声操作と Ctrl+O(TUIから最新のエージェント応答をクリップボードへコピー)の組み合わせ。SSH越しでも動くようにクリップボード周りが整理され、リモートサーバー上でCodexに話しかけつつ結果だけローカルに吸い上げる使い方が現実的になった。

MCP Appsまわりが「使えるレベル」に整った

次はMCPの話。ここはもう少し地味だが、実務的にはこっちのほうが影響が大きい。

今回のアップデートで、MCP Appsおよびカスタム MCPサーバーに以下が追加された。

  • リソース読み取り(resource reads)
  • ツール呼び出しのメタデータ
  • カスタムサーバーのツール検索
  • サーバー主導の elicitations(追加情報をユーザーに問い合わせる対話)
  • ファイルパラメータのアップロード
  • プラグインキャッシュのリフレッシュ信頼性向上

このうち elicitations が地味に効く。これまでのMCPツールは「必要なパラメータをすべて呼び出し側で揃えてから発射する」スタイルだったが、サーバー側から「その引数足りてないから追加でここを教えて」と返せるようになった。対話的にパラメータを埋めていけるわけで、たとえばデプロイ系MCPツールで「どのブランチをどこに?」と段階的に聞き返してくるUXが作れる。

加えて、code-modeのtool declarations がMCP outputSchema を含むようになり、エージェント側でも構造化された結果を型として扱える。モデルが「このツールが返してきたJSONはこの形だ」と把握した状態でコードを書くため、ツールレスポンスを壊すフラジャイルなパース処理を書く必要が減る。

細かい改善としては、/mcp コマンドが高速化(重たい全ツール検査をスキップ)、無効化したサーバーは認証プローブも飛ばさない、ハイフン付きサーバー名でツール列挙が正しく動く、といったところ。大小合わせるとMCPまわりの体感待ち時間は結構短くなっている。

codex exec-server でリモート実行が実験段階へ

3つ目の柱が、リモート/アプリサーバーワークフロー。ここも個人的には結構エポックな変化だと思っている。

  • egress方向のWebSocketトランスポート
  • remote --cd の転送
  • ランタイムでのリモートコントロール有効化
  • サンドボックス対応のファイルシステムAPI
  • 実験的な codex exec-server サブコマンド

ざっくり言うと、Codex CLIをリモートホストに常駐させておき、手元のマシンから「あっちで動いてるCodexに向かってジョブを投げる」構成が現実的になってきた。今までも workaround で似たことはできたが、今回からWebSocketとexec-serverがファーストクラスで入ってきたのは方向性として大きい。

想像しやすいのは、GPUを積んだ専用マシンに常時Codexを立てておき、ノートPCからそこへ長時間ジョブを投げるパターン。あるいはチーム全員で共通のリモートサンドボックスにCodexを飼い、Claude Cowork の GA アップデートで見えた監査・権限・サンドボックス管理の話と自然に繋がっていく運用。どちらもまだ「実験的サブコマンド」段階のため本番全振りできる状態ではないが、OpenAIが「CLI をローカルに閉じ込めておく気はもうない」と宣言したのは明確だ。

正直な評価と残る懸念

ここまで褒めてきたが、音声のUXはv2 WebRTCで改善したとはいえ Realtime API の料金が安くない。常時マイクを開きっぱなしの使い方だと、普通にテキストで叩くより高くつく場面も出てくる。筆者としては「困難なデバッグ中に喋りながら思考する」ような局所的な使い方で本領が出ると見ている。

もう一つ、MCP の機能拡張が豊富なぶん、プラグイン側の実装追随が必要になる。elicitations や outputSchema は使ってナンボの機能なので、コミュニティMCPツールが対応してくるまでは一部恩恵が遅れる。

それでも、半年前まで「ターミナルAIコーディング=Claude Code 一強」だった景色が明らかに変わりつつあるのは確かだ。Cursor 3・Claude Code・Codex の役割分担の話題で触れたように、この3つのツールはもう同じ役割を奪い合う段階ではなく、違う角度から開発体験を拡張しにきている。4/10アップデートは、その中でOpenAIが「声 × MCP × リモート」という独自の軸を選んだ宣言に見える。

関連記事