FlowTune Media

Mistralが縛りを外した — Codestral 2がApache 2.0で降ってきた日

初代Codestralが出たとき、みんな最初に聞いたのは「これ、仕事で使っていいんですか?」だった。答えは事実上ノー。Mistral独自の「Mistral Non-Production License」が被さっていて、商用利用には別契約が必要だった。モデル自体の性能は評価されていたが、エンタープライズの現場では触れない。OSSコミュニティでも扱いに困る、中途半端な位置にいたのが前世代のCodestralだ。

4月8日、Mistralが後継のCodestral 2を公開した。スペック自体も良くなっているのだが、それ以上に「Apache 2.0」の一行が効いている。Mistralの主力コーディングモデルに商用制限なしのライセンスがついたのは、これが初めてだ。

Apache 2.0が外れて何が変わるのか

ライセンスの話はベンチマークの数字より地味に見えるが、エンジニアが仕事で使う場面ではここが全てだ。

Apache 2.0は、使うときに必要な条件がほぼゼロに近い。改変もOK、再配布もOK、商用利用もOK、社内サービスに組み込んでもOK、ユーザーに配るSaaSに裏で使ってもOK。必要なのは「Apache 2.0で出したものですよ」の表記ぐらいで、特許クレームの扱いも明示されている。法務が止めない。

前世代のCodestralは、非営利・評価用としては使えたが、その先の本番投入で引っかかっていた。社内ツールに組み込むだけでも法務レビューが通らないケースがあった。今回Codestral 2で制限を外したことで、そのハードルが消える。要は「ようやくDeepSeek CoderやQwen3と同じ土俵に立てた」というのが正確な表現だ。性能の話の前に、まずここが前提として揃った。

Mistralはここ半年、Mistral Code などエンタープライズ向けのIDEプロダクトにも本腰を入れ始めている。その流れでオープンモデル側も「法務で止まらないライセンス」に寄せてきたのは筋が通っている。オープンソースへの「回帰」というより、市場が求める条件に合わせにきた、という方が実態に近い。

スペックと性能

Codestral 2は22Bパラメータのdenseモデル。Mixture-of-Expertsではない。動かす側から見ると、これは意外と重要で、推論時に全パラメータを踏みに行くので必要VRAMが読みやすい。量子化版を使えば24GB級のコンシューマGPUでも十分回る。MoEのように「活性化パラメータは少ないけど重み自体は巨大」という奇妙な制約がない。

公開情報で出ているベンチマーク指標はざっくり次の通り。

  • HumanEvalとMBPPでGPT-4oを上回るスコア
  • Fill-in-the-middle(FIM)対応:関数の途中に挿入する補完が高速
  • 多言語対応:80言語以上のコード
  • 32kトークンのコンテキスト

HumanEvalで上回ったという話は、ここ1年の小型コードモデルではもう珍しくない。DeepSeek Coder、Qwen3-Coder、さらにOSSのStarCoder系も似たような主張をしてきた。ベンチマーク単体の数字は、正直もうあまり参考にならない。

むしろ見るべきは、「22B・dense・FIM対応・Apache 2.0」という組み合わせだ。この4つが揃うOSSコード特化モデルは実はそんなに多くない。DeepSeek Coderは性能は高いがMoE構成で運用の癖がある。Qwen3はライセンス条件が一部のバージョンで微妙に緩くない。StarCoder系は性能でやや見劣りする。そこにCodestral 2が、ローカルで動かしやすくて、商用制限もない22B denseという一枠を取りに来た。

誰のためのモデルか

Codestral 2が刺さる相手は、大きく3つに分けられる。

ひとつは、社内の独自コードベースで動かしたい開発チーム。GitHub CopilotやCursorを使えない理由(社外秘コード、規制業種、エアギャップ環境)を抱えている組織は一定数いる。そこにClaude CodeやCodexをAPI経由で持ち込むのもダメ、となれば選択肢はローカル実行しかない。Codestral 2はそこの現実的な第一候補になる。

ふたつ目は、IDEプラグインやAI補完サービスのベンダー。自社製品の裏側でOSSコード補完モデルを使いたいが、毎月のAPI費用は避けたい。このタイプの事業者にとって、Apache 2.0のコード特化モデルは金鉱に近い。自分たちのプロダクトの一部として同梱できるからだ。

3つ目は、研究者と個人開発者。モデルをファインチューニングして特定言語(Rust、Solidity、関数型など)に特化させたい人たちにとって、22Bは扱いやすいサイズだ。70B級だとトレーニングが重すぎるし、7B級だと土台が弱い。Mistralは訓練レシピや評価スクリプトもある程度公開する姿勢を見せている。

逆に、普通にWeb開発をしているエンジニアが個人でコード補完に使いたいだけなら、Codestral 2を選ぶ強い理由はまだない。Cursorの月額20ドルでClaude SonnetやGPT-5クラスが叩ける世界で、ローカルで22Bを立てるのは手間がかかる。ここは正直に書いておく。

他のOSSコードモデルとの立ち位置

ここ3ヶ月で出た主要OSSコードモデルを並べて、ざっくり整理しておく。

  • Codestral 2(Mistral): 22B dense、Apache 2.0、FIM対応、32kコンテキスト
  • Qwen3-Coder(Alibaba): 複数サイズあり、一部Apache 2.0、長いコンテキスト
  • DeepSeek Coder V3系: MoEでスペック自体は先頭集団、ライセンスは条件付き
  • StarCoder 3系: 完全オープン、商用フリー、ただし性能が一歩落ちる

Codestral 2はこの中で「サイズが中庸で、ライセンスが最も扱いやすい」枠を取りにきている。性能トップではない。でも採用の決済稟議が最も通りやすいモデル、というポジションだ。企業でOSSモデルを選ぶとき、性能より先に見られるのは結局ライセンスなので、この立ち位置は意外と強い。

気になる点

ひとつだけ、注意しておきたいのは「Mistralがライセンス方針をまた変えないか」という不安だ。Mistralは過去に「オープン→クローズ→少しオープンに戻す」という揺れを繰り返してきた。Codestral 2がApache 2.0で出たこと自体は喜ばしいが、次世代のCodestral 3がまた独自ライセンスに戻る可能性はゼロではない。商用プロダクトの基盤に据える場合は、「このバージョンは永久にこのライセンスで使える」という事実を踏まえて導入を決めたほうがいい。Apache 2.0は取り消しできないので、そこは安心していい。

あとはベンチマーク至上主義から少し離れて、実コードで使って自分のワークフローに合うかを試すのが一番早い。モデルカードと重みは既にHugging Faceに上がっているし、ollama pull codestral2 のような形で手元にも落とせる(正確なタグはMistral公式で確認)。触ってみて、補完の気持ちよさ幻覚の少なさで選ぶといい。コードモデルは、ここの体感が全てだ。

関連記事