FlowTune Media

Mistral Small 4とVoxtral TTS — フランスのAI企業が「ローカルで動く音声AI」で勝負に出た

Mistral AI

OpenAI、Anthropic、Googleの3強が支配するLLM市場で、フランスのMistral AIが独自の路線を走り続けている。彼らの武器は「オープンウェイト」と「効率性」だ。

2026年に入って立て続けにリリースされたSmall 4とVoxtral TTSは、その戦略を鮮明に体現している。

Small 4 — 119Bパラメータ、6Bアクティブ

Mistral Small 4は、119Bのパラメータ総数に対して、1トークンあたり6BのパラメータのみがアクティブになるMixture of Experts(MoE)アーキテクチャを採用している。コンテキストウィンドウは256K。

ひとつのモデルで、汎用チャット、コーディング、エージェントタスク、複雑な推論をカバーする。従来のMistralが用途別にモデルを分けていたのに対し、Small 4は「これ一つでいい」という統合モデルだ。

性能はフロンティアモデルには及ばないが、コストパフォーマンスが光る。APIを使う場合、Claude Opus 4.6やGPT-5.4の数分の1のコストで、「十分使える」品質が得られる。

Voxtral TTS — Whisperを超えた音声モデル

筆者がより注目しているのはVoxtral TTSだ。40億パラメータの軽量なテキスト読み上げモデルで、9言語をサポートする(英語、フランス語、ドイツ語、スペイン語、オランダ語、ポルトガル語、イタリア語、ヒンディー語、アラビア語)。

特筆すべきは、消費者向けハードウェアで動作する点。つまり、クラウドに音声データを送ることなく、手元のPCで音声合成が完結する。プライバシーの観点で、これは大きなアドバンテージだ。

ベンチマークでは、OpenAIのWhisper large-v3を全タスクで上回っている。GPT-4o mini TranscribeやGemini 2.5 Flashも超えた。英語の短文音声認識とMozilla Common Voice(多言語音声認識のベンチマーク)ではElevenLabs Scribeをも上回り、State of the Artを達成している。

Hugging Faceでオープンウェイトとして公開されており、transformers 4.54.0以上で動作する。

Le Chat — Mistralの消費者向けインターフェース

Voxtralの音声モードはLe Chat(Mistralのチャットアプリ)にも搭載された。テキスト入力だけでなく、音声で対話できるようになった。

Le Chatには他にも、Research Mode(構造化されたリサーチレポート生成)、Black Forest Labs連携の画像編集、プロジェクトフォルダ機能が追加されている。ChatGPTやClaude.aiに対抗するフル機能のチャットプラットフォームとして、着実に機能を積み上げている。

ただし、日本語対応は現時点で弱い。VoxtralのTTS対応言語に日本語は含まれておらず、Le Chatの日本語での対話品質もChatGPTやClaudeに比べると見劣りする。

誰に向いているか

Voxtral TTSの真価を発揮するのは、音声AIアプリケーションを開発する開発者だ。ローカルで動く高品質なTTSモデルを、オープンウェイトで自由に組み込める。ElevenLabsのAPIに依存しない選択肢が欲しい開発者にとって、Voxtralは魅力的だ。

Small 4は、APIコストを抑えたい開発者向け。フロンティアモデルほどの性能は不要だが、ローカルモデルでは物足りない——そのスイートスポットにSmall 4は位置している。

一般ユーザーがLe Chatに乗り換えるメリットは、現時点では限定的だ。ChatGPTやClaudeのほうが日本語体験は良い。だが、オープンソースAIの進化を追いたい人にとって、Mistralの動きは見逃せない。

Mistral AI公式サイト

関連記事