OpenAIの音声AIが「考えてから話す」ようになった — GPT-Realtime-2と3モデル体制の全容
これまでの音声AIは「聞いて、すぐ答える」だった。考える時間がなかった。
5月7日にOpenAIが発表したGPT-Realtime-2は、その前提を変えた。GPT-5クラスの推論能力を音声モデルに組み込み、複雑な質問に対して「考えてから」答えることができる。128Kトークンのコンテキストウィンドウ、調整可能な推論レベル、並列ツール呼び出し。音声AIのエンジンが一世代進んだ。
同時にリリースされたGPT-Realtime-TranslateとGPT-Realtime-Whisperを合わせた3モデル体制で、音声エージェントの構築に必要なピースが一通り揃った形だ。
3つのモデル、3つの役割
GPT-Realtime-2は対話の中核を担う。ユーザーの音声を受け取り、推論し、音声で返す。従来のRealtime APIが「即座に反応する」設計だったのに対し、Realtime-2は問題を考えてから話す。推論レベルはnormal / high / xhighの3段階で、レイテンシと賢さのバランスを開発者が調整できる。
「少々お待ちください」「カレンダーを確認しています」といった間を埋めるフレーズも自動で挿入できるため、考えている間の沈黙が不自然にならない。ツール呼び出しも並列に実行するので、「予約の確認」と「在庫の照会」を同時にこなしながら会話を続けられる。
GPT-Realtime-Translateはリアルタイム翻訳だ。70以上の入力言語を13の出力言語に、話者のペースに合わせて翻訳する。通訳者のように「聞きながら訳す」ことができる。
GPT-Realtime-Whisperはストリーミング音声認識。話している最中にテキスト化が進むリアルタイム文字起こしだ。
料金は安くない
率直に言って、GPT-Realtime-2の料金は高い。
音声入力が100万トークンあたり$32(キャッシュヒット時は$0.40)、音声出力が$64。テキストベースのGPT-5.5と比べると桁が違う。10分の通話でざっくり$1〜2程度になる計算で、大量のコールセンター通話を処理するにはコストが重い。
一方でRealtime-TranslateとRealtime-Whisperは分単位の課金で、それぞれ$0.034/分と$0.017/分。こちらは既存の音声サービスと比較してもリーズナブルだ。
| モデル | 用途 | 料金 |
|---|---|---|
| GPT-Realtime-2 | 対話・推論 | $32/1M入力 + $64/1M出力 |
| GPT-Realtime-Translate | リアルタイム翻訳 | $0.034/分(約5円) |
| GPT-Realtime-Whisper | ストリーミング文字起こし | $0.017/分(約2.5円) |
ElevenLabsとの棲み分け
音声AI市場でOpenAIの直接的な競合はElevenLabsだ。
音声の品質では、正直まだElevenLabsの方が上だろう。子音の滑らかさ、息づかいの自然さ、長文でも崩れない安定感 — 表現力の面ではElevenLabsに一日の長がある。
だがGPT-Realtime-2の強みは「知能」だ。会話の流れを理解し、複雑な質問に推論で答え、ツールを呼び出して行動する。カスタマーサポートのAIエージェントや、営業の自動応対のように「考えて判断する」場面では、声の美しさよりも返答の正確さが求められる。
つまり、用途によって選択肢が分かれる。ナレーションやポッドキャストのように「声そのもの」が商品になる場面ではElevenLabs。対話型のAIエージェントを構築する場面ではGPT-Realtime-2。棲み分けは明確だ。
音声エージェントの敷居が下がる
開発者にとって最も大きいのは、音声エージェントのアーキテクチャがシンプルになったことだ。
従来は音声認識(Whisper)→ テキスト変換 → LLM推論 → テキスト変換 → 音声合成(TTS)というパイプラインを自前で組む必要があった。遅延は各段階で蓄積し、レスポンスタイムは数秒に膨らむ。
GPT-Realtime-2はこれを1つのWebSocket接続に圧縮する。音声が入って、音声が出る。中間のテキスト変換は不要。エンドツーエンドの遅延が劇的に短くなるし、構築の手間も減る。
たとえば予約受付のボイスボット、社内のヘルプデスク、多言語カスタマーサポート — こうした「人間が電話応対していた仕事」を、Realtime-2 + Translate + Whisperの3モデルでカバーできる可能性がある。70言語のリアルタイム翻訳が使えるなら、グローバル企業のサポート体制を根本から変えられるかもしれない。
まだ早い部分もある
ただし課題もある。コストの問題は先述の通り。加えて、リアルタイム音声の品質はネットワーク環境に依存する。モバイル回線で安定した音声対話ができるかは、実際のプロダクション環境で検証が必要だ。
また、13言語の出力制限も気になる。入力は70言語以上に対応するが、出力できる言語はまだ限られている。日本語は入出力ともに対応しているが、マイナー言語の需要がある場面では注意が必要だ。
それでも、音声AIが「ただ喋るだけ」から「考えて喋る」に進化したインパクトは大きい。テキストチャットのAIエージェントが当たり前になったように、音声のAIエージェントも「いて当然」の時代が近づいている。
関連記事
Grokが音声APIに参入した — ElevenLabsの10分の1の価格で、精度は上
xAIがGrok STT/TTS APIを公開。文字起こし$0.10/時間、音声合成$4.20/100万文字。ElevenLabsの10分の1以下の価格で精度は上回る。料金・性能・使い所を整理した。
Googleの音声AI、1時間のナレーションが約180円 — Gemini 3.1 Flash TTSの実力と死角
Gemini 3.1 Flash TTSは200以上のタグで声の感情やペースを制御できるGoogleの音声合成モデル。料金、ElevenLabsとの違い、日本語対応の実態を整理する。
OpenAIが「AIコンサル会社」を作った — 6,000億円を投じて企業に乗り込む新戦略
OpenAI Deployment Companyの全容を解説。$4B超の投資、FDE(前方展開エンジニア)モデル、Tomoro買収の狙いとエンタープライズAI市場への影響を読み解く。