Voxtral Transcribe 2 — Mistralの音声認識が「安い・速い・オープン」の三拍子でWhisperを超えてきた

Mistral AIの音声認識が、本気を出してきた。
2026年2月、Mistralは次世代の音声認識モデル「Voxtral Transcribe 2」をリリースした。バッチ処理向けのVoxtral Mini Transcribe V2と、リアルタイム処理向けのVoxtral Realtimeの2モデル構成。前者は$0.003/分、後者は$0.006/分という価格設定で、精度・速度・コストのすべてで競合を上回るスコアを叩き出している。
先日取り上げたCohere Transcribeが「精度特化のオープンソースASR」として注目を集めたが、Voxtral Transcribe 2はそこに「話者分離」「リアルタイム処理」「ドメイン特化」という実務三点セットを乗せてきた。音声認識の競争が、また一段階引き上がった。
2つのモデル、2つの用途
Voxtral Mini Transcribe V2はバッチ処理向けのモデルだ。録音済み音声を高精度に文字起こしする。話者分離(ダイアライゼーション)、単語レベルのタイムスタンプ、コンテキストバイアシングに対応しており、会議の議事録や医療カルテ、コールセンターのログ解析といった用途に直結する。
コンテキストバイアシングは、専門用語を事前に登録することでドメイン固有の語彙を正しく認識させる機能だ。「Kubernetes」を「クーバーネティス」と誤認識されるストレスから、ようやく解放される。
Voxtral Realtimeはライブ音声向けだ。200ミリ秒未満のレイテンシで、音声エージェントやライブ配信のリアルタイム文字起こしに使える。Apache 2.0ライセンスのオープンウェイトモデルとしてHugging Faceに公開されており、自社インフラでのセルフホストが可能だ。
対応言語は13言語。英語、中国語、ヒンディー語、スペイン語、アラビア語、フランス語、ポルトガル語、ロシア語、ドイツ語、日本語、韓国語、イタリア語、オランダ語をカバーしている。
ベンチマーク比較
音声認識の精度はWER(Word Error Rate、低いほど良い)で測定される。Voxtral Transcribe 2は主要な競合モデルを全方位で上回っている。
| モデル | 多言語WER | 話者分離 | リアルタイム | ライセンス |
|---|---|---|---|---|
| Voxtral Mini Transcribe V2 | ◎ | ✅ | — | API |
| Voxtral Realtime | ◎ | — | ✅ (< 200ms) | Apache 2.0 |
| Cohere Transcribe | ○ (5.42%) | — | — | Apache 2.0 |
| Whisper Large v3 | △ (7.44%) | — | — | MIT |
| GPT-4o mini Transcribe | ○ | — | — | API |
| Gemini 2.5 Flash | ○ | — | — | API |
| Assembly Universal | ○ | ✅ | ✅ | API |
| Deepgram Nova | ○ | ✅ | ✅ | API |
Cohere Transcribeが精度では優秀だったが、話者分離やタイムスタンプが未対応だった。Voxtral Transcribe 2は、その欠点をすべて埋めている。Assembly UniversalやDeepgramも話者分離とリアルタイム対応を備えるが、精度でVoxtralに及ばない。
料金比較
| モデル | 料金 | 備考 |
|---|---|---|
| Voxtral Mini Transcribe V2 | $0.003/分 | バッチ処理 |
| Voxtral Realtime | $0.006/分 | リアルタイム |
| GPT-4o mini Transcribe | $0.003/分 | バッチ処理 |
| Deepgram Nova | $0.0043/分 | リアルタイム対応 |
| Assembly Universal | $0.0065/分 | リアルタイム対応 |
バッチ処理のVoxtral Mini Transcribe V2はGPT-4o mini Transcribeと同価格帯でありながら、精度と機能で上回る。リアルタイムのVoxtral Realtimeは$0.006/分で、Assembly Universalより安く、しかもオープンウェイトだ。セルフホストすればAPI費用をゼロにすることもできる。
正直に言う
ここまで書くとVoxtralが完璧に見えるが、注意点もある。
まず、Voxtral Realtimeはオープンウェイトだが、Voxtral Mini Transcribe V2はAPI提供のみだ。精度が高いバッチモデルをセルフホストしたいなら、選択肢はまだCohere Transcribeになる。
日本語の精度も未知数だ。13言語対応を謳っているが、英語以外の言語での独立した第三者ベンチマークはまだ限定的。Cohere Transcribeの人間評価では日本語の勝率が70%と高かったが、Voxtralについては同様の詳細な評価データがまだ出揃っていない。
また、MistralのエコシステムはOpenAIやGoogleほど成熟していない。SDKやツールチェーンの充実度、コミュニティの厚みでは差がある。新しいモデルを本番に投入するなら、この点は考慮すべきだ。
まとめ
Voxtral Transcribe 2は、音声認識の「あちらを立てればこちらが立たず」問題をかなりの程度解消したモデルだ。精度、話者分離、タイムスタンプ、リアルタイム対応、ドメイン特化、オープンウェイト、低コスト——欲しいものが一通り揃っている。
特にリアルタイムモデルがApache 2.0でオープンになっている点は、音声エージェントを自社で構築したい開発者にとって決定的なメリットだ。ElevenLabsやDeepgramのAPIに依存せず、自前のインフラで200ms未満のレイテンシを実現できる。
2026年の音声認識は、Whisper一強の時代から完全にマルチプレイヤーの競争に移行した。Cohere Transcribeが精度の天井を引き上げ、Voxtral Transcribe 2が実務での使い勝手を底上げした。どちらを選ぶかは用途次第だが、選択肢が増えたこと自体が、開発者にとっての最大の恩恵だ。
関連記事
Cohere Transcribeが音声認識の王座を奪った — Whisperを超えたオープンソースASRモデルの実力と限界
Cohere Transcribeの精度・日本語性能・制限を解説。WER 5.42%でWhisperを超えたオープンソース音声認識モデルの実力と、乗り換え判断のポイント
Mistral Small 4 — フランス発「スマホで動く音声AI」の意外な実力
Mistral Small 4とVoxtral TTSを解説。ローカル実行可能な高品質音声合成モデルの性能、Le Chatの新機能、開発者向けの活用法がわかる
Netflix VOID — 動画から物体を消すと「影も波紋も消える」無料AIが、有料ツールを圧倒している
Netflix初のオープンソースAI「VOID」をレビュー。動画から物体を消し影や物理的相互作用まで再現する仕組み、Runwayとの比較、使い方を解説