FlowTune Media

Microsoft MAI 3兄弟 — WhisperとElevenLabsを超えた、という主張の中身

Microsoftが4月2日、OpenAIでもAnthropicでもGoogleでもなく「Microsoft自身が一から作ったモデル」を3本同時に投下した。名前はMAI-Transcribe-1(音声認識)、MAI-Voice-1(音声合成)、MAI-Image-2(画像生成)。どれもMicrosoft Foundryで当日から使える。

これまでMicrosoftは、消費者向けにOpenAIのGPTを、Azure AI Foundryにもマルチベンダーのモデルカタログを並べる「モデル会社ではなく流通会社」という立ち位置を取ってきた。今回の3本は、その姿勢を明確に塗り替えに来ている。MAIラボが生み出した独自モデルを、Azureという流通網に直接乗せる。インパクトの大きさは数字で見た方が早いので、まず整理しておく。

3モデルのスペックと料金を一気に整理

モデル 用途 注目スペック 料金
MAI-Transcribe-1 音声認識(25言語) FLEURS上の平均WER 3.9%、Azure Fastの2.5倍速 $0.36 / 時間
MAI-Voice-1 音声合成(TTS) GPU1基で60秒音声を1秒以内で生成 $22 / 100万文字
MAI-Image-2 画像生成 Arena.aiモデル系ランキング3位、前世代比2倍速 入力 $5 / 100万トークン、出力 $33 / 100万トークン

これが全部、4月2日時点でMicrosoft Foundryから叩けるようになっている。個別にニュースとして出しても十分な内容だが、Microsoftは「世界クラスのモデルを3本同時」という打ち出し方で押し切ってきた。

MAI-Transcribe-1 — Whisper一強の構図を揺さぶる

3つの中でも一番意外だったのがMAI-Transcribe-1だ。音声認識はGoogleのChirp系、OpenAIのWhisper系(そして最近はGPT-Transcribe)、さらにCohere TranscribeのようなOSSも参戦した激戦区で、ここでMicrosoftが「1位」と宣言してくるとは思わなかった。

業界標準のFLEURSベンチマークで上位25言語の平均WERが3.9%。Microsoftの発表資料ではこれがGemini 3.1 FlashとOpenAIのGPT-Transcribeを上回る数字として紹介されている。加えて、バッチ転写速度がAzureの既存Fastラインより2.5倍速い。しかも価格は$0.36/時間、つまり60分の音声を日本円で約55円(1ドル155円換算)で文字起こしできる計算だ。Whisper API($0.006/分 = $0.36/時間相当)とほぼ同水準のコストで精度が上なら、これは素直にすごい。

個人的に気になったのはWERの内訳で、「平均3.9%」という表現はおそらく言語ごとにバラつきがある。Microsoftは25言語の内訳を詳しく公開していないが、日本語が入っているかどうか、そしてその精度がどれくらいかは、日本の利用者にとっては一番重要な点だ。FLEURSには日本語も含まれているので、WERが実運用で「会議議事録に耐えるレベル」かどうかは、近いうちに誰かが実機検証するだろう。

MAI-Voice-1 — 「1秒で60秒」の意味

MAI-Voice-1のスペックは一見シンプルだが、よく読むと地味に狂っている。

GPU 1枚で60秒ぶんの音声を1秒以内に生成できる

つまりリアルタイム再生の60倍速で合成できる。これは何を可能にするかというと、(1)ほぼ即時応答する音声エージェント、(2)長尺ナレーションのバッチ生成、(3)対話中に「前の発話を再生成して別の言い回しにやり直す」といった編集的な使い方、が現実的なレイテンシに収まる。

ElevenLabs / ElevenCreativeが現時点で高品質TTSの定番だが、あちらは品質と引き換えに速度がネックになることが多かった。MAI-Voice-1が品質でElevenLabs相当かどうかは、Microsoftはまだ詳細ベンチマークを出していないので判断を保留したい。しかし、「品質で肉薄しつつ、速度とコストで勝つ」ポジションを狙っているのは明らかだ。$22/100万文字という料金設定も、ElevenLabsの月額課金と比べると、使った分だけ払える点で大量バッチ用途には合う。

MAI-Image-2 — Arena.ai 3位という微妙な立ち位置

3モデルの中で最も評価が難しいのがMAI-Image-2だ。

Arena.ai(ユーザー投票による画像モデルのELOランキング)でモデル系列としては3位にデビューしたと主張している。ただしこの「系列」という言葉がミソで、個別モデル単位の1位ではなく、あくまでMicrosoft MAIの画像モデルファミリーとして3位、という整理になっている。Midjourney V8、FLUX 2、Imagen 4あたりと比べて絶対評価でどうかは、正直、現時点では分からない。

一方、スピードは明確で、前世代比2倍速。料金は入力$5/100万トークン、出力$33/100万トークンと、FLUX ProやMidjourney API(提供されていないが)と比べると中庸。MAI-Image-2単独で「乗り換える理由」を作るのは難しく、むしろFoundryの中でワンストップで画像も生成できるという利便性が主な売りになるだろう。

「Microsoftが自作モデルを出す」ことの意味

3つのモデルそれぞれより、もっと大きな話として整理しておきたいのがMicrosoftがついに自作モデル路線に本気で舵を切ったということだ。

これまでMicrosoftのAI戦略は、良くも悪くもOpenAIに依存していた。Copilot、Bing、Office、Azure、どれを触っても裏にはGPTがいて、それはMicrosoft自身もずっと認めてきた構図だった。2025年後半からMAIラボ(Microsoft AI、Mustafa Suleymanが率いる組織)の独自モデル開発の話題が増えていたが、今回の3本で「消費者向けの音声・画像領域は自社モデルで十分戦える」ことを実証した形になる。

この流れは、LLM本体(大規模推論モデル)の領域にもいずれ波及する可能性が高い。Microsoftが「Phi系以上、GPT系未満」の独自推論モデルを出してくるシナリオは、1年前までは絵空事だったが、今はかなり現実味がある。

使い所と正直な評価

実務目線で整理すると、3モデルの「今すぐ使える度」はかなり差がある。

MAI-Transcribe-1は、価格と精度が本当に謳い文句通りなら最も即効性がある。特に議事録・コールセンター・動画キャプションといった業務用途で、AzureとMicrosoft 365の資産がある組織はそのまま置き換えの候補に入る。

MAI-Voice-1は、リアルタイム音声エージェントを組んでいる開発者にとって要検証。ElevenLabsからのスイッチングコストは低くない(ボイスライブラリ、カスタムボイスのエコシステム)ので、速度とコストだけで動く領域は限定的だろう。

MAI-Image-2は、正直なところ「今すぐ乗り換える理由」は弱い。既にMidjourneyやFLUXで回っているワークフローがあるなら、しばらく様子見でいい。ただし、Copilot Studioや社内のPowerApps自動化の中で画像生成が必要になった時、外部API追加の手間なく使える点は地味にありがたい。

面白くなるのはこの先だ。MicrosoftがMAIラボの成果をどこまでOpenAIから独立させるか。MAI-Transcribe-1がFoundryの標準になり、Copilotの音声入力の裏側がこっそり差し替わっていく、という未来は十分あり得る。そしてそれは、Microsoftが「流通」から「モデル提供者」へ立ち位置を移す最初の一歩としても読める。

発表の詳細はMicrosoft AI公式に揃っている。API叩いて自分で確認するのが一番早いだろう。

関連記事