OpenAIの音声AIが「考えてから話す」ようになった — GPT-Realtime-2と3モデル体制の全容

これまでの音声AIは「聞いて、すぐ答える」だった。考える時間がなかった。

5月7日にOpenAIが発表したGPT-Realtime-2は、その前提を変えた。GPT-5クラスの推論能力を音声モデルに組み込み、複雑な質問に対して「考えてから」答えることができる。128Kトークンのコンテキストウィンドウ、調整可能な推論レベル、並列ツール呼び出し。音声AIのエンジンが一世代進んだ。

同時にリリースされたGPT-Realtime-TranslateとGPT-Realtime-Whisperを合わせた3モデル体制で、音声エージェントの構築に必要なピースが一通り揃った形だ。

3つのモデル、3つの役割

GPT-Realtime-2は対話の中核を担う。ユーザーの音声を受け取り、推論し、音声で返す。従来のRealtime APIが「即座に反応する」設計だったのに対し、Realtime-2は問題を考えてから話す。推論レベルはnormal / high / xhighの3段階で、レイテンシと賢さのバランスを開発者が調整できる。

「少々お待ちください」「カレンダーを確認しています」といった間を埋めるフレーズも自動で挿入できるため、考えている間の沈黙が不自然にならない。ツール呼び出しも並列に実行するので、「予約の確認」と「在庫の照会」を同時にこなしながら会話を続けられる。

GPT-Realtime-Translateはリアルタイム翻訳だ。70以上の入力言語を13の出力言語に、話者のペースに合わせて翻訳する。通訳者のように「聞きながら訳す」ことができる。

GPT-Realtime-Whisperはストリーミング音声認識。話している最中にテキスト化が進むリアルタイム文字起こしだ。

料金は安くない

率直に言って、GPT-Realtime-2の料金は高い。

音声入力が100万トークンあたり$32（キャッシュヒット時は$0.40）、音声出力が$64。テキストベースのGPT-5.5と比べると桁が違う。10分の通話でざっくり$1〜2程度になる計算で、大量のコールセンター通話を処理するにはコストが重い。

一方でRealtime-TranslateとRealtime-Whisperは分単位の課金で、それぞれ$0.034/分と$0.017/分。こちらは既存の音声サービスと比較してもリーズナブルだ。

モデル	用途	料金
GPT-Realtime-2	対話・推論	$32/1M入力 + $64/1M出力
GPT-Realtime-Translate	リアルタイム翻訳	$0.034/分（約5円）
GPT-Realtime-Whisper	ストリーミング文字起こし	$0.017/分（約2.5円）

ElevenLabsとの棲み分け

音声AI市場でOpenAIの直接的な競合はElevenLabsだ。

音声の品質では、正直まだElevenLabsの方が上だろう。子音の滑らかさ、息づかいの自然さ、長文でも崩れない安定感 — 表現力の面ではElevenLabsに一日の長がある。

だがGPT-Realtime-2の強みは「知能」だ。会話の流れを理解し、複雑な質問に推論で答え、ツールを呼び出して行動する。カスタマーサポートのAIエージェントや、営業の自動応対のように「考えて判断する」場面では、声の美しさよりも返答の正確さが求められる。

つまり、用途によって選択肢が分かれる。ナレーションやポッドキャストのように「声そのもの」が商品になる場面ではElevenLabs。対話型のAIエージェントを構築する場面ではGPT-Realtime-2。棲み分けは明確だ。

音声エージェントの敷居が下がる

開発者にとって最も大きいのは、音声エージェントのアーキテクチャがシンプルになったことだ。

従来は音声認識（Whisper）→ テキスト変換 → LLM推論 → テキスト変換 → 音声合成（TTS）というパイプラインを自前で組む必要があった。遅延は各段階で蓄積し、レスポンスタイムは数秒に膨らむ。

GPT-Realtime-2はこれを1つのWebSocket接続に圧縮する。音声が入って、音声が出る。中間のテキスト変換は不要。エンドツーエンドの遅延が劇的に短くなるし、構築の手間も減る。

たとえば予約受付のボイスボット、社内のヘルプデスク、多言語カスタマーサポート — こうした「人間が電話応対していた仕事」を、Realtime-2 + Translate + Whisperの3モデルでカバーできる可能性がある。70言語のリアルタイム翻訳が使えるなら、グローバル企業のサポート体制を根本から変えられるかもしれない。

まだ早い部分もある

ただし課題もある。コストの問題は先述の通り。加えて、リアルタイム音声の品質はネットワーク環境に依存する。モバイル回線で安定した音声対話ができるかは、実際のプロダクション環境で検証が必要だ。

また、13言語の出力制限も気になる。入力は70言語以上に対応するが、出力できる言語はまだ限られている。日本語は入出力ともに対応しているが、マイナー言語の需要がある場面では注意が必要だ。

それでも、音声AIが「ただ喋るだけ」から「考えて喋る」に進化したインパクトは大きい。テキストチャットのAIエージェントが当たり前になったように、音声のAIエージェントも「いて当然」の時代が近づいている。

OpenAIの音声AIが「考えてから話す」ようになった — GPT-Realtime-2と3モデル体制の全容

3つのモデル、3つの役割

料金は安くない

ElevenLabsとの棲み分け

音声エージェントの敷居が下がる

まだ早い部分もある

関連記事

Grokが音声APIに参入した — ElevenLabsの10分の1の価格で、精度は上

Googleの音声AI、1時間のナレーションが約180円 — Gemini 3.1 Flash TTSの実力と死角

OpenAIが「AIコンサル会社」を作った — 6,000億円を投じて企業に乗り込む新戦略