FlowTune Media

AI文字起こしAPI、結局どれを選ぶべきか — Whisper・Deepgram・ElevenLabs・AssemblyAIを料金と精度で比較

AIで音声を文字に起こすサービスは山ほどある。NottaやFireflies、tl;dvのようなエンドユーザー向けツールは「会議を録音してテキストにする」体験を売っているが、裏側では何らかの文字起こしAPIが動いている。

では、自分のアプリやワークフローに文字起こし機能を組み込みたいとき、どのAPIを選べばいいのか。2026年6月時点で主要な4つのAPI — OpenAI Whisper、Deepgram Nova-3、ElevenLabs Scribe v2、AssemblyAI Universal-2 — を、料金・精度・使い勝手の3軸で比較した。

料金: 1時間あたりのコストが10倍以上違う

まず料金から。差が大きいので、ここを最初に見たほうがいい。

API バッチ処理 リアルタイム 課金単位
AssemblyAI Universal-2 $0.15/時(約23円) $0.65/時 秒単位
OpenAI Whisper Large V3 $0.36/時(約54円) 秒単位
OpenAI GPT-4o Mini Transcribe $0.18/時(約27円) 秒単位
Deepgram Nova-3 $0.26/時(約39円) $0.46/時 秒単位
ElevenLabs Scribe v2 約$0.22/時(約33円) $15/時 秒単位

AssemblyAIがバッチ処理で最安。1時間$0.15はかなり攻めている。Deepgramも$0.26/時で安い部類だ。Whisperは$0.36/時で中間、ElevenLabsはバッチ処理こそ競争力があるが、リアルタイムAPIは$15/時と桁が違う。

ただしOpenAIは2026年に入ってGPT-4o Mini Transcribeを$0.18/時で追加しており、コスト重視なら選択肢に入る。精度は後述するがWhisper V3よりやや劣る。

Deepgramは$200分の無料クレジットで始められるのが嬉しい。AssemblyAIも無料枠がある。OpenAIとElevenLabsには無料枠がない。

精度: WERの数字だけでは決まらない

音声認識の精度はWER(Word Error Rate)で測られることが多い。数字が低いほど正確だ。

API WER(英語・クリーン音声) 日本語対応
Deepgram Nova-3 5.26% あり
ElevenLabs Scribe v2 約3.3%(96.7%精度) 99言語対応
OpenAI Whisper V3 約5〜6% 99言語対応
AssemblyAI Universal-2 約5〜6% 99言語対応

ElevenLabsが英語の精度で頭一つ抜けている。ただしWERはテストデータの質に大きく依存するため、各社が発表する数字をそのまま横並びで比較するのは危険だ。

実際の精度は音声の品質に左右される。クリーンなスタジオ録音なら各社とも大差ないが、雑音が入る電話音声、アクセントの強い話者、専門用語の多い会話では差が開く。Deepgramは電話音声に特化したモデルを別途用意しており、コールセンター用途では有利な場面がある。

日本語については、Whisperが680,000時間の多言語データで学習している点で実績がある。Deepgramも日本語モデルを持っているが、英語ほどの精度は出ないという声もある。正直なところ、日本語の精度を正確に比較したベンチマークが公開されていないのが現状で、用途に応じて実際に試すのが確実だ。

使い勝手: APIの設計思想が違う

料金と精度だけでなく、APIの設計や付加機能にも各社の特色が出る。

OpenAI Whisper — シンプルさが売り。エンドポイントにファイルを投げるだけで文字起こしが返ってくる。GPT-4o Transcribeにはダイアライゼーション(話者分離)も追加された。セルフホスト版のWhisperをローカルで動かすこともでき、プライバシー重視の用途やオフライン環境にはこの選択肢がある。ただしリアルタイムストリーミングAPIがないのは弱点。

Deepgram Nova-3 — 開発者向けの機能が充実している。キーワードブースティング(特定の用語の認識精度を上げる)、レダクション(個人情報の自動マスキング)、トピック検出などをAPIのパラメータだけで使える。リアルタイムストリーミングにも対応しており、ボイスエージェントの裏側に組み込むケースで選ばれることが多い。レイテンシも低い。

ElevenLabs Scribe v2 — 精度はトップクラスだが、ElevenLabsの本業はTTS(音声合成)だ。音声のパイプライン全体 — 文字起こし、合成、翻訳 — をElevenLabsで完結させたい場合に強い。リアルタイムAPIの150msレイテンシは魅力的だが、前述の通り料金が高い。

AssemblyAI Universal-2 — Audio Intelligence(感情分析、要約、エンティティ検出)が他社にない強み。文字起こしだけでなく「音声の中身を分析する」ところまで含めた用途ではベストな選択肢だろう。99言語対応で料金も最安クラス。

どう選ぶか

判断軸を整理する。

コスト最優先 → AssemblyAI。$0.15/時は圧倒的に安い。大量の音声データを処理するバッチ用途に向く。

リアルタイム性が必要 → Deepgram。ストリーミングAPIの安定性とレイテンシの低さに定評がある。ボイスエージェントやリアルタイム字幕の用途ならここが第一候補。

最高精度を求める → ElevenLabs Scribe v2。英語のWERでは最高水準。ただしリアルタイムの料金は覚悟が要る。

セルフホストしたい → Whisper。オープンソースのモデルをローカルで動かせる唯一の選択肢。GPUがあればAPI料金ゼロで運用できる。

音声を分析までしたい → AssemblyAI。感情分析、トピック検出、要約まで一つのAPIで完結する。

文字起こしAPIは「裏方」だからこそ選び方が重要

文字起こしAPI自体はユーザーの目に触れない裏方だが、アプリの体験を左右する重要なパーツだ。料金が10倍違えば、月間の音声処理量によっては数十万円の差になる。精度が数%違えば、後工程の編集コストが変わる。

4つのAPIはどれも高品質で、「明らかにダメ」なものはない。だからこそ、自分の用途 — コスト重視か精度重視か、リアルタイムか非同期か、日本語の扱いはどうか — を明確にして選ぶ必要がある。迷ったらDeepgramの$200無料クレジットか、AssemblyAIの無料枠で実際の音声を処理してみるのが手っ取り早い。

関連記事