FlowTune Media

Whisper超えのWER 3.8% — MicrosoftがMAI-Transcribe-1とMAI-Voice-1で音声AIに本気を出した

Microsoftが2026年4月2日、Azure AI Foundryで3つの独自基盤モデル「MAIシリーズ」を公開した。そのうち2つが音声系モデルだ。音声認識のMAI-Transcribe-1と、音声合成のMAI-Voice-1。

正直に言うと、Microsoftの独自モデルと聞いてもピンとこない人は多いだろう。AzureにはOpenAIモデルがあるし、音声認識ならWhisperが事実上の標準になっている。わざわざ自前で作る必要があるのか、と。

だが数字を見ると印象が変わる。

Microsoft MAI Models

MAI-Transcribe-1 — Whisperを「全言語で」上回った音声認識

MAI-Transcribe-1は25言語に対応する音声認識モデルで、Word Error Rate(WER)3.8%を達成した。これはOpenAIのWhisperを全対応言語で上回るスコアだ。「特定の言語で勝った」ではなく「全部で勝った」という点が大きい。

処理速度もAzure Fast Transcriptionと比較して2.5倍高速。料金は1時間あたり$0.36(約54円)。Whisper APIの$0.006/分(1時間換算で$0.36)とほぼ同等の価格帯だが、精度と速度で明確に差をつけている。

WER 3.8%がどれほどのものか。人間の書き起こしでもWER 4〜5%程度と言われるから、ほぼ人間レベルに到達したことになる。もちろんベンチマーク上の数字と実運用は別物だが、Whisperが長らく「十分実用的だがミスは出る」という評価だったことを考えると、このスコアは無視できない。

ただし気になる点もある。25言語対応と言っているが、日本語の精度がどの程度かは現時点で詳細が出ていない。英語中心のベンチマークでWER 3.8%を出すのと、日本語の敬語や専門用語が混在する音声で同等の精度が出るかは別の話だ。ここは実際に触ってみないとわからない。

MAI-Voice-1 — GPU1基で60秒を1秒以内に生成するTTS

もう一つのMAI-Voice-1は音声合成(Text-to-Speech)モデル。特筆すべきは速度で、GPU1基で60秒分の音声を1秒以内に生成できる。リアルタイムの60倍速。これは現行のTTSモデルと比較してもかなり速い。

料金は100万文字あたり$22(約3,300円)。ElevenLabsのScaleプランが100万文字あたり$0.30/1,000文字(=$300/100万文字)であることを考えると、桁が違う。もちろんElevenLabsは感情表現や声のクローニングなど付加価値が豊富なので単純比較はできないが、大量のテキストを音声化する用途では圧倒的なコスト優位性がある。

企業のコールセンター向けIVR音声の大量生成、eラーニング教材の音声化、オーディオブックの下書き生成。こうした「品質よりもまず量とスピード」が求められる領域で、MAI-Voice-1は真価を発揮するだろう。

なぜMicrosoftが「独自モデル」を作るのか

ここが一番面白い部分だと思う。MicrosoftはOpenAIに数十億ドルを投資し、AzureでGPT-4oやWhisperを提供している。にもかかわらず、自前のMAIシリーズを開発して公開した。

TechCrunchは「OpenAIとGoogleへの直接対抗」と報じたが、筆者はもう少し構造的な理由があると見ている。Azure AI Foundryという「AIモデルのマーケットプレイス」を運営する以上、自社モデルがないとプラットフォームとしての説得力が弱い。AWSがBedrockでAmazon Titanを提供し、GoogleがVertex AIでGeminiを載せているのと同じ構図だ。

加えて、OpenAIとの関係が永続的である保証はない。独自モデルを持つことは、ビジネス上のリスクヘッジでもある。MAI-Transcribe-1とMAI-Voice-1が特定領域でOpenAIモデルを上回っているのは、「自前でもやれる」というMicrosoftの意思表示だろう。

組み合わせで見えてくる可能性

MAI-Transcribe-1とMAI-Voice-1を組み合わせると、面白いパイプラインが組める。

音声入力をMAI-Transcribe-1で高精度にテキスト化し、GPT-4oで要約や翻訳を行い、MAI-Voice-1で別言語の音声に変換する。いわゆるSpeech-to-Speech翻訳パイプラインだ。すべてAzure AI Foundry内で完結するため、APIの統合コストが低い。

そしてMAI-Transcribe-1のWER 3.8%という精度があれば、議事録の自動生成がかなり実用的になる。現状、Whisperベースの議事録ツールは「だいたい合ってるけど固有名詞でコケる」という評価が多い。WER 3.8%なら、後から人間が修正する手間がかなり減る可能性がある。ただし前述の通り、日本語でこの精度が出るかが最大の未知数だ。

Azure縛りと音声品質の不透明さ

Azure AI Foundryでの提供ということは、個人開発者がサクッと試せる感じではない。Azureアカウントの作成、リソースのプロビジョニング、APIキーの管理。このあたりのハードルは、HuggingFaceでWhisperをpip installする手軽さとは比べものにならない。

また、MAI-Voice-1の音声品質についてはベンチマーク的な数字が出ていない。速度とコストは明示されているが、「自然さ」の評価がないのは気になる。ElevenLabsやOpenAI TTSが感情豊かな音声で評価されている中、Microsoftがどこまでの品質を出せているのか。速くて安いが品質は並、だとユースケースが限定される。

OpenAI一本足打法の終わり

Microsoftが独自モデルに本腰を入れ始めたこと自体が、AI業界の地殻変動を示している。OpenAIへの依存から脱却し、その第一歩として音声AIという「派手ではないが実需が大きい」領域を選んだのは、実に堅実な判断だ。

Azure AI Foundryを使っている企業にとっては、Whisperからの乗り換え検討に値する。個人開発者は、日本語対応の精度レポートが出てから判断しても遅くない。

Microsoft AI 公式発表

関連記事