MAI-Image-2 — Microsoftの「超知能チーム」が作った画像生成AI、Arena 3位デビューの中身
画像生成AIの勢力図がまた動いた。
2026年4月、Microsoftが新しい画像生成モデル「MAI-Image-2」を発表した。開発したのはMicrosoft AI Superintelligence(MAIS)チーム。名前の通り、超知能の実現を目指す社内の先端研究グループだ。そのチームが画像生成モデルを出してきたという事実自体が、まず興味深い。
しかも、ただの社内プロジェクトの成果物ではない。AIモデルの人気投票サイトArena.aiのリーダーボードに登場するやいなや、3位にランクインした。いきなりトップ3。これはDALL-E 3やStable Diffusion XLがデビューしたときよりも高い初期評価だ。
フォトリアリズムと肌色表現へのこだわり
MAI-Image-2が評価されているポイントは大きく3つある。
まず、フォトリアリズムの精度。生成された画像がいわゆる「AIっぽさ」から一歩抜け出しているという声が多い。特に人物の写真風画像において、照明の当たり方や素材の質感が自然だという評価が目立つ。
次に、肌色の正確な表現。これは地味に見えるが、画像生成AIにとって長年の課題だった。多くのモデルが特定の肌色に偏る傾向を持っていたが、MAI-Image-2はプロンプトで指定した多様な肌色を忠実に再現できるとされている。グローバル展開を前提にしたMicrosoftらしい設計判断だと思う。
そして3つ目が、テキストレンダリング。画像内に文字を正確に描画する能力だ。
テキスト描画精度 — 画像生成AIの「鬼門」をどこまで克服したか
正直に言えば、テキスト描画は画像生成AI全体の弱点であり続けている。DALL-E 3で大幅に改善されたとはいえ、長い文章や複雑なフォント指定ではまだミスが出る。Midjourneyに至っては、v6でようやくまともになった程度だ。
MAI-Image-2はこの領域で一歩先を行くと主張している。ポスターやバナーのデザインに使えるレベルのテキスト描画精度を実現しているとのことだ。もしこれが本当なら、デザイナーのワークフローが変わる可能性がある。「ラフをAIで生成して、テキストだけ手動で乗せ直す」という二度手間が不要になるからだ。
ただし、日本語のテキスト描画精度については現時点で情報が少ない。英語圏での評価が先行しており、日本語フォントの描画がどこまで正確かは実際に触ってみないとわからない。
CopilotとBing Image Creatorで使える
MAI-Image-2はMicrosoft CopilotとBing Image Creatorで利用可能だ。つまり、特別なサブスクリプションなしで試せる。
これはOpenAIのDALL-E 3がChatGPT Plus(月$20)でしか使えないのとは対照的だ。Microsoftは画像生成を「プレミアム機能」ではなく「基本機能」として位置づけている。Copilotの無料ティアでどこまでの生成回数が許されるかは不明だが、有料のDALL-E 3に対して無料でぶつけてくる姿勢は明確だ。
DALL-Eとの関係 — 自社開発への転換
ここで気になるのが、MicrosoftとOpenAIの関係だ。
MicrosoftはこれまでOpenAIのDALL-Eシリーズを自社サービスに統合してきた。Azure OpenAI ServiceでDALL-E 3を提供し、Bing Image CreatorのバックエンドもDALL-Eだった。しかしMAI-Image-2は、OpenAIの技術ではなく、完全にMicrosoft内製のモデルだ。
この動きは、Microsoft全体の戦略と整合している。テキスト生成でもMAIシリーズの独自モデルを開発しており、OpenAI依存からの脱却を着々と進めている。投資パートナーであると同時に競合でもあるという複雑な関係が、画像生成の領域でも表面化してきた形だ。
MidjourneyやFLUXとどう違うのか
現在の画像生成AI市場を整理すると、主要プレイヤーは以下のような棲み分けになっている。
Midjourney — アート・クリエイティブ方面で圧倒的な支持。独自の美学を持つ画像が特徴。v7以降はリアリズムも向上したが、依然として「Midjourney風」の色彩感が残る。
DALL-E 3 — ChatGPTとの統合による手軽さが強み。プロンプトの意図理解が優れている。ただしフォトリアリズムではやや劣る。
FLUX — Black Forest Labsのオープンソース系モデル。カスタマイズ性の高さで開発者・研究者に人気。
MAI-Image-2 — フォトリアリズムとテキスト描画に特化。Microsoft製品との統合で手軽にアクセス可能。
MAI-Image-2の立ち位置は、DALL-E 3の「手軽さ」とMidjourneyの「品質」の間を狙っているように見える。特にビジネス用途 — プレゼン資料の画像、SNS投稿用のビジュアル、簡単なバナー制作 — においては最も実用的な選択肢になりうる。
ビジネス現場で何が変わるか
MAI-Image-2のテキスト描画精度とフォトリアリズムが本物なら、いくつかの実用的なシナリオが開ける。
プレゼン資料の即席ビジュアル制作。 Copilot経由で使えるということは、PowerPointやWordの中から直接画像を生成できる可能性がある。「スライドに合うイメージ画像を作って」と指示するだけで、テキスト入りのビジュアルが完成する世界だ。Microsoft 365との統合が進めば、デザインツールを開く必要すらなくなる。
ECサイトの商品画像プロトタイプ。 商品写真の撮影前に、AIで「こんな感じの画像」を生成してレイアウトを検討する。テキスト描画が正確なら、価格表示やキャッチコピーを含んだモックアップも一発で作れる。
多言語マーケティング素材の同時生成。 肌色表現の多様性と組み合わせれば、グローバル展開する企業が各地域向けのビジュアルを一括生成できる。ただし、これは日本語テキスト描画の精度が伴わないと成り立たない。
正直な評価
MAI-Image-2は、Microsoftが「OpenAIの技術を借りるだけの会社」ではないことを示す重要な一手だ。Arena.ai 3位デビューは確かにインパクトがある。
一方で、懸念もある。
Arena.aiのランキングはユーザーの好みによる人気投票の側面が強く、技術的なベンチマーク評価とは異なる。デビュー直後の注目バイアスもあるだろう。数ヶ月後に順位がどう変動するかを見ないと、本当の実力は判断しにくい。
また、Microsoftの画像生成AIには過去にコンテンツフィルターが厳しすぎるという批判があった。Bing Image Creatorでは、特に問題のないプロンプトでもブロックされることがあり、クリエイティブな用途での自由度に不満を持つユーザーが少なくなかった。MAI-Image-2でこの点が改善されているかどうかは、実際に使い込まないとわからない。
それでも、無料で高品質な画像生成にアクセスできるという事実は大きい。DALL-E 3に月$20を払っているユーザーにとって、CopilotのMAI-Image-2は真っ先に試す価値がある。
Microsoft AI公式サイトでMAI-Image-2の詳細が確認できる。
関連記事
Claude for Word — Anthropicが法務と金融の「Wordの中」に入り込んできた
AnthropicがMicrosoft Word向けClaude for Wordをパブリックベータ公開。トラックチェンジ・Excel/PowerPointとのcross-app連携、法務・金融を狙う戦略と実用上の注意点を解説する。
Whisper超えのWER 3.8% — MicrosoftがMAI-Transcribe-1とMAI-Voice-1で音声AIに本気を出した
MicrosoftがAzure AI Foundryで公開したMAI-Transcribe-1とMAI-Voice-1を解説。Whisper全言語超えのWER 3.8%、GPU1基で60秒音声を1秒生成するTTSの実力と料金を整理する。
Phi-4-reasoning — Microsoftが証明した「小さくても賢い」推論モデルの実力
Microsoft Phi-4-reasoningの推論性能・ベンチマーク・ローカル実行方法を解説。14Bパラメータでo3-miniに迫る数学・科学推論の実力とは