AIが「聞きながら話す」時代が始まった — 元OpenAI CTOが作った0.4秒応答モデルの正体
ChatGPTの音声モード。Gemini Live。どちらも「会話」と呼ばれているが、やっていることは順番待ちだ。あなたが話し終わるのを待って、AIが応答する。電話のように割り込んだり、相槌を打ったりはしない。
その前提を壊しにきたのが、Thinking Machines Labだ。
誰が作っているのか
創業者はMira Murati。2024年9月までOpenAIのCTOを務め、GPT-4やDALL·E 3のリリースを指揮した人物だ。CTOにはPyTorchの生みの親であるSoumith Chintalaが就いている。2025年7月にAndreessen Horowitzのリードで20億ドルを調達し、評価額は120億ドル。社員数はまだ100名前後と報じられている。
OpenAIの中核にいた人間が、外に出て最初に作ったのが「もっと人間らしく会話するAI」だったという事実は興味深い。Realtime APIの限界を誰よりも知っているからこそ、ゼロから設計し直す判断をしたのだろう。
Interaction Modelsとは何か
5月11日に研究プレビューとして公開された「TML-Interaction-Small」は、276Bパラメータ(アクティブは12B)のMixture-of-Expertsモデルだ。
従来の音声AIとの根本的な違いは、入力と出力が同時に走ること。200ミリ秒ごとの「マイクロターン」で音声・映像・テキストを処理し続ける。あなたが話している最中にも、AIは聞きながら考え、必要なら割り込む。電話で「あ、そういえば——」と口を挟まれる、あの感覚に近い。
技術的には「encoder-free early fusion」を採用している。通常の音声AIは外部エンコーダ(WhisperやUSM的なもの)で音声をテキスト的な表現に変換してからLLMに渡す。Thinking Machinesはこの中間変換を排除し、生のオーディオ信号(dMel形式)と画像パッチ(40×40)を直接Transformerに入力する。全コンポーネントをゼロからco-trainingすることで、「聞く・見る・話す・黙る」をひとつのネットワークに統合した。
GPT-Realtime-2.0の3倍速い
数字を見ると差は歴然としている。
| 指標 | TML-Interaction-Small | GPT-Realtime-2.0 (minimal) | Gemini-3.1-flash-live |
|---|---|---|---|
| 応答レイテンシ | 0.40秒 | 1.18秒 | 0.57秒 |
| FD-bench v1.5(対話品質) | 77.8 | 47.8 | 54.3 |
| TimeSpeak(指定時刻に発話) | 64.7 | 4.3 | — |
| CueSpeak(合図に反応) | 81.7 | 2.9 | — |
FD-bench v1.5は「フルデュプレックス対話の質」を計るベンチマークで、単純な応答精度ではなく「適切なタイミングで割り込めるか」「沈黙すべきときに黙れるか」を評価する。77.8 vs 47.8というスコア差は、既存モデルが「聞きながら話す」設計になっていないことをそのまま反映している。
正直、レイテンシ0.4秒は人間同士の会話に近い。平均的な人間の応答ターンが0.2〜0.3秒程度であることを考えると、「AIと話している」感覚がかなり薄れるレベルだ。
何が変わるか
この技術が示唆する可能性はいくつかある。
通訳の再発明。 今のAI翻訳は「話し終わるまで待つ → まとめて翻訳」だ。Interaction Modelsなら、相手が話している最中にリアルタイムで訳を耳元に流せる。国際会議の同時通訳者がやっていることをAIが再現できる下地ができた。
教育・コーチングの質的変化。 語学学習アプリで「AIと会話練習」はすでにあるが、相槌もなければ割り込みもない不自然な体験だった。フルデュプレックスなら、「あ、その発音ちょっと違うよ」とリアルタイムで指摘が入る。人間の家庭教師に近づく。
コールセンターの完全自動化。 現行の音声AIボットが不評なのは「話を最後まで聞いてくれない」のではなく「こちらの言葉を拾うタイミングがズレる」からだ。200msマイクロターンでこの問題が解消すれば、顧客満足度は別次元になる。
微妙な点
まだ研究プレビュー段階だ。一般アクセスは「2026年後半」としか予告されていない。
応答品質(response quality)は82.8%で、GPT-Realtime-2.0の80.0%と大差ない。つまり「話す内容の賢さ」ではなく「話し方の自然さ」で差をつけている。知識タスクや推論の深さで比較すると、GPT-5.5やClaude Opus 4.7に分がある。
また、現時点でAPIが公開されておらず、開発者が自分のプロダクトに組み込む手段がない。「すごいデモ」と「使える製品」の間には常にギャップがあり、Thinking Machinesがそこを埋められるかはこれからの話だ。
まとめ
Thinking Machines Labの「Interaction Models」は、AI音声対話の設計思想そのものを刷新しようとしている。ターン制ではなくフルデュプレックス。外部エンコーダではなく早期融合。Mira Muratiがなぜ「これ」を最初のプロダクトに選んだのかは明確で、音声対話のUXがAI普及のボトルネックだと考えているからだろう。
製品としてはまだ存在しないが、ベンチマーク上ではGPTもGeminiも大差で上回っている。2026年後半のAPI公開時に、この性能が実環境で再現されるかどうか。それが本当の勝負になる。
関連記事
80年間証明できなかった数学の予想を、AIが反証した — OpenAIが幾何学の歴史を変えた日
OpenAIの推論モデルが1946年のエルデシュ予想を自律的に反証。代数的整数論を使った証明の中身、フィールズ賞数学者の評価、AI数学の今後を解説。
OpenAI共同創業者がAnthropicに移った — Karpathyの決断が示すAI業界の重心移動
Andrej KarpathyがAnthropicの事前学習チームに参画。OpenAI共同創業者の電撃移籍が意味するもの、新チームの役割、AI業界の人材競争への影響を分析する。
コストは50分の1、コンテキストは12倍 — 「Transformerの次」を名乗るSubQの実力
SubQは世界初の完全サブクアドラティックLLM。1,200万トークンのコンテキストでClaude Opusを上回るベンチマーク結果を出した新アーキテクチャの仕組みと実力を解説。