AIが「聞きながら話す」時代が始まった — 元OpenAI CTOが作った0.4秒応答モデルの正体

ChatGPTの音声モード。Gemini Live。どちらも「会話」と呼ばれているが、やっていることは順番待ちだ。あなたが話し終わるのを待って、AIが応答する。電話のように割り込んだり、相槌を打ったりはしない。

その前提を壊しにきたのが、Thinking Machines Labだ。

誰が作っているのか

創業者はMira Murati。2024年9月までOpenAIのCTOを務め、GPT-4やDALL·E 3のリリースを指揮した人物だ。CTOにはPyTorchの生みの親であるSoumith Chintalaが就いている。2025年7月にAndreessen Horowitzのリードで20億ドルを調達し、評価額は120億ドル。社員数はまだ100名前後と報じられている。

OpenAIの中核にいた人間が、外に出て最初に作ったのが「もっと人間らしく会話するAI」だったという事実は興味深い。Realtime APIの限界を誰よりも知っているからこそ、ゼロから設計し直す判断をしたのだろう。

Interaction Modelsとは何か

5月11日に研究プレビューとして公開された「TML-Interaction-Small」は、276Bパラメータ（アクティブは12B）のMixture-of-Expertsモデルだ。

従来の音声AIとの根本的な違いは、入力と出力が同時に走ること。200ミリ秒ごとの「マイクロターン」で音声・映像・テキストを処理し続ける。あなたが話している最中にも、AIは聞きながら考え、必要なら割り込む。電話で「あ、そういえば——」と口を挟まれる、あの感覚に近い。

技術的には「encoder-free early fusion」を採用している。通常の音声AIは外部エンコーダ（WhisperやUSM的なもの）で音声をテキスト的な表現に変換してからLLMに渡す。Thinking Machinesはこの中間変換を排除し、生のオーディオ信号（dMel形式）と画像パッチ（40×40）を直接Transformerに入力する。全コンポーネントをゼロからco-trainingすることで、「聞く・見る・話す・黙る」をひとつのネットワークに統合した。

GPT-Realtime-2.0の3倍速い

数字を見ると差は歴然としている。

指標	TML-Interaction-Small	GPT-Realtime-2.0 (minimal)	Gemini-3.1-flash-live
応答レイテンシ	0.40秒	1.18秒	0.57秒
FD-bench v1.5（対話品質）	77.8	47.8	54.3
TimeSpeak（指定時刻に発話）	64.7	4.3	—
CueSpeak（合図に反応）	81.7	2.9	—

FD-bench v1.5は「フルデュプレックス対話の質」を計るベンチマークで、単純な応答精度ではなく「適切なタイミングで割り込めるか」「沈黙すべきときに黙れるか」を評価する。77.8 vs 47.8というスコア差は、既存モデルが「聞きながら話す」設計になっていないことをそのまま反映している。

正直、レイテンシ0.4秒は人間同士の会話に近い。平均的な人間の応答ターンが0.2〜0.3秒程度であることを考えると、「AIと話している」感覚がかなり薄れるレベルだ。

何が変わるか

この技術が示唆する可能性はいくつかある。

通訳の再発明。 今のAI翻訳は「話し終わるまで待つ → まとめて翻訳」だ。Interaction Modelsなら、相手が話している最中にリアルタイムで訳を耳元に流せる。国際会議の同時通訳者がやっていることをAIが再現できる下地ができた。

教育・コーチングの質的変化。 語学学習アプリで「AIと会話練習」はすでにあるが、相槌もなければ割り込みもない不自然な体験だった。フルデュプレックスなら、「あ、その発音ちょっと違うよ」とリアルタイムで指摘が入る。人間の家庭教師に近づく。

コールセンターの完全自動化。 現行の音声AIボットが不評なのは「話を最後まで聞いてくれない」のではなく「こちらの言葉を拾うタイミングがズレる」からだ。200msマイクロターンでこの問題が解消すれば、顧客満足度は別次元になる。

微妙な点

まだ研究プレビュー段階だ。一般アクセスは「2026年後半」としか予告されていない。

応答品質（response quality）は82.8%で、GPT-Realtime-2.0の80.0%と大差ない。つまり「話す内容の賢さ」ではなく「話し方の自然さ」で差をつけている。知識タスクや推論の深さで比較すると、GPT-5.5やClaude Opus 4.7に分がある。

また、現時点でAPIが公開されておらず、開発者が自分のプロダクトに組み込む手段がない。「すごいデモ」と「使える製品」の間には常にギャップがあり、Thinking Machinesがそこを埋められるかはこれからの話だ。

まとめ

Thinking Machines Labの「Interaction Models」は、AI音声対話の設計思想そのものを刷新しようとしている。ターン制ではなくフルデュプレックス。外部エンコーダではなく早期融合。Mira Muratiがなぜ「これ」を最初のプロダクトに選んだのかは明確で、音声対話のUXがAI普及のボトルネックだと考えているからだろう。

製品としてはまだ存在しないが、ベンチマーク上ではGPTもGeminiも大差で上回っている。2026年後半のAPI公開時に、この性能が実環境で再現されるかどうか。それが本当の勝負になる。

AIが「聞きながら話す」時代が始まった — 元OpenAI CTOが作った0.4秒応答モデルの正体

誰が作っているのか

Interaction Modelsとは何か

GPT-Realtime-2.0の3倍速い

何が変わるか

微妙な点

まとめ

関連記事

xAI Voice Agent Builder公開 — Grok Voiceで音声エージェントをノーコード構築、$0.05/分

Googleが研究者に「AI助手3人」を付けた — Gemini for Scienceの中身と、科学が変わる予感

80年間証明できなかった数学の予想を、AIが反証した — OpenAIが幾何学の歴史を変えた日