Mistral Small 4 — フランス発「スマホで動く音声AI」の意外な実力

OpenAI、Anthropic、Googleの3強が支配するLLM市場で、フランスのMistral AIが独自の路線を走り続けている。彼らの武器は「オープンウェイト」と「効率性」だ。
2026年に入って立て続けにリリースされたSmall 4とVoxtral TTSは、その戦略を鮮明に体現している。
Small 4 — 119Bパラメータ、6Bアクティブ
Mistral Small 4は、119Bのパラメータ総数に対して、1トークンあたり6BのパラメータのみがアクティブになるMixture of Experts(MoE)アーキテクチャを採用している。コンテキストウィンドウは256K。
ひとつのモデルで、汎用チャット、コーディング、エージェントタスク、複雑な推論をカバーする。従来のMistralが用途別にモデルを分けていたのに対し、Small 4は「これ一つでいい」という統合モデルだ。
性能はフロンティアモデルには及ばないが、コストパフォーマンスが光る。APIを使う場合、Claude Opus 4.6やGPT-5.4の数分の1のコストで、「十分使える」品質が得られる。
Voxtral TTS — Whisperを超えた音声モデル
筆者がより注目しているのはVoxtral TTSだ。40億パラメータの軽量なテキスト読み上げモデルで、9言語をサポートする(英語、フランス語、ドイツ語、スペイン語、オランダ語、ポルトガル語、イタリア語、ヒンディー語、アラビア語)。
特筆すべきは、消費者向けハードウェアで動作する点。つまり、クラウドに音声データを送ることなく、手元のPCで音声合成が完結する。プライバシーの観点で、これは大きなアドバンテージだ。
ベンチマークでは、OpenAIのWhisper large-v3を全タスクで上回っている。GPT-4o mini TranscribeやGemini 2.5 Flashも超えた。英語の短文音声認識とMozilla Common Voice(多言語音声認識のベンチマーク)ではElevenLabs Scribeをも上回り、State of the Artを達成している。
Hugging Faceでオープンウェイトとして公開されており、transformers 4.54.0以上で動作する。
Le Chat — Mistralの消費者向けインターフェース
Voxtralの音声モードはLe Chat(Mistralのチャットアプリ)にも搭載された。テキスト入力だけでなく、音声で対話できるようになった。
Le Chatには他にも、Research Mode(構造化されたリサーチレポート生成)、Black Forest Labs連携の画像編集、プロジェクトフォルダ機能が追加されている。ChatGPTやClaude.aiに対抗するフル機能のチャットプラットフォームとして、着実に機能を積み上げている。
ただし、日本語対応は現時点で弱い。VoxtralのTTS対応言語に日本語は含まれておらず、Le Chatの日本語での対話品質もChatGPTやClaudeに比べると見劣りする。
誰に向いているか
Voxtral TTSの真価を発揮するのは、音声AIアプリケーションを開発する開発者だ。ローカルで動く高品質なTTSモデルを、オープンウェイトで自由に組み込める。ElevenLabsのAPIに依存しない選択肢が欲しい開発者にとって、Voxtralは魅力的だ。
Small 4は、APIコストを抑えたい開発者向け。フロンティアモデルほどの性能は不要だが、ローカルモデルでは物足りない——そのスイートスポットにSmall 4は位置している。
一般ユーザーがLe Chatに乗り換えるメリットは、現時点では限定的だ。ChatGPTやClaudeのほうが日本語体験は良い。だが、オープンソースAIの進化を追いたい人にとって、Mistralの動きは見逃せない。
関連記事
Mistralが縛りを外した — Codestral 2がApache 2.0で降ってきた日
Mistralがコード生成モデルCodestral 2をApache 2.0で公開。前モデルの商用制限が外れた意味、22Bのスペック、DeepSeek CoderやQwen3との立ち位置、ローカルで動かす現実的な使い道を整理する。
Voxtral Transcribe 2 — Mistralの音声認識が「安い・速い・オープン」の三拍子でWhisperを超えてきた
MistralのVoxtral Transcribe 2を競合と徹底比較。話者分離・リアルタイム処理・オープンウェイトの3拍子でWhisperを超えた音声認識の実力と注意点を解説。
コーディングAIを「クラウドに放り投げる」時代が来た — Mistral Medium 3.5とVibe Remote Agentsの正体
Mistral AIが128B旗艦モデル「Medium 3.5」とクラウド非同期コーディング「Vibe Remote Agents」を発表。SWE-Bench 77.6%、256kコンテキスト、オープンウェイト。性能・料金・使い方を解説。