AIが「聞きながら話す」時代が始まった — 元OpenAI CTOが作った0.4秒応答モデルの正体
元OpenAI CTO創業Thinking Machines Labの0.4秒応答フルデュプレックスAI「Interaction Models」を解説。
Thinking Machines Lab音声AIAIリサーチMira Murati速報
8件の記事
元OpenAI CTO創業Thinking Machines Labの0.4秒応答フルデュプレックスAI「Interaction Models」を解説。
OpenAIのGPT-Realtime-2、Realtime-Translate、Realtime-Whisperの3モデルを解説。GPT-5クラスの推論を持つ音声AIの料金・機能・競合比較。
GrokがCarPlayに参入準備中。ChatGPT・Perplexityに続く3番目のAI。車内音声AI3社の特徴と選び方を整理。
xAIの音声エージェントモデルgrok-voice-think-fast-1.0はStarlinkの電話営業・サポートで実績を出した。バックグラウンド推論の仕組みと実力を解説。
xAIがGrok STT/TTS APIを公開。文字起こし$0.10/時間、音声合成$4.20/100万文字。ElevenLabsの10分の1以下の価格で精度は上回る。料金・性能・使い所を整理した。
Google Nest向けGemini for Homeが4月にアップデート。発話の途中で遮られる問題、プレイリスト認識、複雑なリスト操作、そして新しいペアレンタルコントロールの中身を整理する。
Notion AIがデスクトップ版の音声入力とCustom Skillsの共有・読み取り専用リンクを追加。5月3日までのCustom Agents無料トライアルと合わせて、今Notionで何ができるかを整理する。
ChatGPTのApple CarPlay対応を解説。設定方法、運転中の活用例、Siri・Google Assistantとの使い分け、音声専用の制限事項を整理