FlowTune Media

音声認識・合成・エージェントを1本のAPIにまとめた — Deepgramが開発者に選ばれる理由

音声エージェントのAPIを選定するとき、開発者が重視するのは精度やレイテンシだけではない。STT・LLM・TTSの3層をどれだけ少ない接続数で回せるか — つまりインテグレーションの手間が、プロダクションまでの速度を決める。

DeepgramはSTT(音声認識)、TTS(音声合成)、Voice Agent APIの3つを1つのプラットフォームに統合し、この課題に正面から答えを出した。1本のWebSocket接続でユーザーの音声を受け取り、テキスト化し、LLMに渡し、応答を音声で返す。開発者から見れば、複数のAPIを束ねるオーケストレーション層を自分で書く必要がなくなる。

$200の無料クレジットが付くため、試すハードルも低い。GitHub Starsは7,000超。HackerNewsやRedditでも定期的に話題に上がる、開発者界隈では知名度の高いプラットフォームだ。

Nova-3 — 精度とスピードの両取り

Deepgramの音声認識モデル「Nova-3」は、競合と比較してWER(単語誤り率)をストリーミングで54.2%、バッチ処理で47.4%削減したと公式は主張している。45言語に対応し、日本語もサポートする。

数字だけ見ると「本当かよ」と思うが、Nova-3には実用上で効いてくる特徴がいくつかある。

まずリアルタイム多言語対応。1つの通話内で言語が切り替わっても自動検出する。日本語で始まった会話が途中で英語に切り替わるケースでも、手動の言語切り替えは不要だ。次にPII(個人情報)の自動リダクション。クレジットカード番号や社会保障番号をリアルタイムで検出し、マスクする機能が組み込まれている。コールセンター向けではこれがコンプライアンス要件をクリアする鍵になる。

料金はストリーミングで$0.0077/分(約1.2円)、バッチ処理で$0.0043/分(約0.6円)。1時間分の音声を文字起こしして50円以下。Whisper APIの$0.006/分と比べると若干高いが、リアルタイム処理と精度の差を考えれば十分見合う。

Flux — 「いつ話し終えたか」を判定するモデル

音声エージェントで最も体験を左右するのは、実は音声認識の精度ではない。ターンテイキング — つまり「ユーザーが話し終えたタイミング」の判定だ。

従来のアプローチは沈黙の長さ(VAD: Voice Activity Detection)で判定していた。0.5秒黙ったら「話し終えた」と見なす。だがこれでは「えーと...」と考えている最中に割り込んだり、逆に短い相槌で長い沈黙が入ったりする。人間の会話リズムに合わない。

DeepgramのFluxモデルは、この問題に正面から取り組んでいる。音声のコンテキストからend-of-turn(発話終了)を推論するモデル統合型の手法で、2026年5月時点で最速のend-of-speech検出レイテンシを達成したとされる。

実際のところ、VADベースとFluxの差は体感で明確だ。会話のテンポが自然になり、「被せてくる」「待ちすぎる」の両方が減る。音声エージェントの品質を1段上げたいなら、ここが効く。

Aura-2 — 自社TTSで完結する

音声認識だけでなく、音声合成(TTS)もDeepgramは自前で持っている。Aura-2は40以上の音声オプションとローカライズされたアクセントを提供する。

正直に言えば、音声の自然さはElevenLabsの方が上だ。Expressive Modeの感情表現や抑揚の豊かさでは差がある。だがAura-2の強みは「同じプラットフォーム内で完結する」点にある。STT・LLM・TTSすべてがDeepgramの1つのAPI上で動くため、プロバイダ間のレイテンシが発生しない。

TTSの料金は$0.030/1,000文字。1時間分の会話音声を生成して約$1.80(約270円)。ElevenLabsの従量課金と比べると大幅に安い。音声品質で妥協できる用途 — 社内ツール、テスト環境、速度が最優先のリアルタイム応答 — ではコスト効率が光る。

Voice Agent API — 1エンドポイントで全部やる

Voice Agent APIはDeepgramの本丸だ。1本のWebSocket接続にSTT + LLM + TTSを詰め込み、開発者は音声入力を流し込むだけでエージェントの応答が音声で返ってくる。

OpenAIやAnthropicなどのLLMを選択可能で、ツールコール(外部API呼び出し)やファンクションコーリングにも対応する。たとえば「明日の天気を教えて」と聞かれたら、天気APIを呼び出して結果を音声で返す、という流れを1つのWebSocket内で完結させられる。

料金は$0.08/分(約12円)。この金額にはSTT + ターンテイキング + 会話ロジックが含まれるが、LLMのトークン消費とTTSの文字数課金は別途発生する。実質コストは$0.10〜0.15/分前後になるケースが多い。

ElevenLabsやAssemblyAIとどう違うのか

Voice Agent市場は急速に混み合っており、選択肢を整理しておく価値がある。

ElevenLabs Agentsは音声品質が最強。ブランドボイスや消費者向けプロダクトなど「声の質が体験を決める」ケースでは第一選択肢になる。ただし開発者向けAPIとしてはDeepgramの方が柔軟性が高く、WebSocketレベルでの制御がしやすい。

AssemblyAIはSTTの精度に特化しており、特に固有名詞や英数字混じりの認識精度で強い。Voice Agent APIも提供しており、$4.50/時間のフラットレートは予算管理しやすい。ただしTTSは外部プロバイダに依存する。

Deepgramの立ち位置は「開発者フレンドリーな統合プラットフォーム」だ。STT・TTS・Voice Agentをすべて自前で持ち、1つのアカウント・1つのAPI体系で完結する。Fluxのターンテイキング性能は現時点でトップクラス。一方で、ノーコードのダッシュボードは用意されておらず、ElevenLabs AgentsやRetell AIのようにGUIで音声エージェントを組み立てたい非エンジニアには向かない。

開発者がコードで音声エージェントを組むなら、Deepgramは最も筋のいい選択肢の一つだと思う。

$200クレジットでどこまで試せるか

新規アカウントに付与される$200のクレジットで、Nova-3のバッチ処理なら約46,000分(約770時間)、Voice Agent APIなら約2,500分(約42時間)の音声を処理できる。プロトタイプの検証には十分すぎる量だ。

Pay-As-You-Goプランは最低契約や月額基本料がないため、試した後に使わなければコストは発生しない。Growth以上のプランでは年間契約で15〜20%のディスカウントが得られる。

音声エージェントの開発を始めるなら、まずDeepgramで動くプロトタイプを作り、音声品質にこだわる段階でElevenLabsとの併用を検討する — という進め方が現実的だろう。

関連記事