Claude Codeに「画像も動画も音楽も生成させる」CLIが出た — MiniMaxのMMX-CLIが地味に効く理由
中国の AI スタートアップ MiniMax が、4 月 12 日にちょっと面白い OSS を出してきた。
MMX-CLI という名前で、見た目は地味なコマンドラインツールだ。だが中身を見ると、Claude Code や Cursor に画像・動画・音声・音楽・ビジョン・検索の 7 つのモダリティを「コマンド一発」で持ち込める設計になっていて、最近のエージェント連携の流れに対する答え方として、わりと洗練されている。
リリースから数日で、MarkTechPost や Dataconomy、TechBriefly あたりが解説記事を上げ始めた。日本語ではまだほぼ反応がないが、Claude Code でコードだけでなくサムネ画像や説明動画まで作りたい人にとっては触っておく価値がある類のツールだ。
何が新しいのか
ひとことで言うと、「MCP を持ち出さずにマルチモーダルを足す」 という選択肢を提示してくれる。
これまで Claude Code に外部の生成系機能を足す場合、選択肢は基本的に MCP サーバーを書く(あるいは既存のものを繋ぐ)方向だった。MCP はプロトコルとして優れているが、サーバー側の維持と認証周りの設定がネックで、「ちょっと画像生成したいだけ」のためにわざわざ立てるのは正直億劫だった。
MMX-CLI は別のアプローチを取る。mmx という単一バイナリの中に、
mmx text— テキスト生成mmx image— 画像生成mmx video— 動画生成mmx speech— 音声合成mmx music— 音楽生成(歌詞 + ボーカル + 伴奏まで)mmx vision— 画像理解mmx search— 検索
という 7 つのコマンドグループをまとめている。エージェント側はこの CLI をシェル経由で叩くだけでよく、MCP の介在は不要だ。Claude Code でいうと、「シェルが叩ける」という前提さえ満たせばその場で 7 つのモダリティが解禁される、という感覚に近い。
インストールがだるくない
ここがいちばん効く点かもしれない。
エージェントに組み込みたい場合は、こうだ。
npx skills add MiniMax-AI/cli -y -g
Claude Code・OpenCode・OpenClaw・Cursor あたりにこのコマンドを通すだけで、CLI がインストールされ、同梱の SKILL.md をエージェントが自動で読み込んで、コマンド体系を学習する。あとは普通に「サムネを生成して」「30 秒の BGM を作って」と話しかければ、エージェントが自分で mmx image や mmx music を叩いてくれる。
ターミナルで個別に使いたい場合はもっとシンプル。
npm install -g mmx-cli
mmx music --prompt "lo-fi hip hop, japanese summer evening" --duration 60
中身は TypeScript 99.8%、ランタイムは Bun、スキーマ検証は Zod。今どきの作り。MiniMax の API キーが必要だが、登録から API 利用までは MiniMax のダッシュボードで完結する。
どこで効くか
正直、テキスト生成や画像生成だけなら、すでに各社 API がエージェント側に組み込まれている。MMX-CLI が刺さるのは、その 「組み合わせ」 が必要になる場面だ。
ひとつ具体例を挙げると、ブログ記事の自動生成ワークフローを Claude Code で組んでいる場合。これまでは、
- Claude Code に記事を書かせる
- アイキャッチは別ツール(Midjourney、Flux など)で手動生成
- SNS 用の音声サマリは ElevenLabs に投げる
- 解説動画は別パイプライン
という 4 ステップに分かれていたものを、MMX-CLI を入れた Claude Code の中で、1 つのセッション・1 つのコマンド体系で完結させられるようになる。エージェントが書いた記事の文脈をそのまま mmx image と mmx speech に渡せるので、画像と音声のトーンが本文と揃いやすい。
もうひとつは音楽生成。MiniMax の音楽モデルは、歌詞 + ジャンル指定でボーカル付きの完成曲を 1 分ぐらい平気で吐く。Suno や Udio に近い領域だが、これがエージェント経由で叩けるのは大きい。たとえば「動画用のテーマソングを 3 パターン作ってフォルダに保存しておいて」とエージェントに任せる、みたいな運用が現実的になる。
MCP との関係を整理する
MCP を否定するツールではない、というのは強調しておきたい。
MCP は外部システムとの双方向のデータやり取りに強い。データベースを読みに行く、Slack を叩きに行く、Figma を編集する、といったユースケースでは MCP のほうが圧倒的に合う。MMX-CLI が片付けているのは、「生成系の API をエージェントから呼ぶ」という、MCP が解こうとしていた問題のうちの一部分だけだ。
逆に言うと、その一部分があまりにも頻出するから、「専用の CLI でバイパスしたほうが楽」 という割り切りが有効になっている。MCP サーバーをひとつ書く時間と、npx skills add を 1 回叩く時間を比べたら、後者が圧勝する場面は確かに多い。
ここがちょっと面白い構図だ。Anthropic が MCP を業界標準として推し進めているなかで、MiniMax は 「MCP の外側からエージェントを拡張する」 ルートを正面から提案している。これが流行れば、CLI ベースの拡張機構が「軽量 MCP」のような立ち位置で増えていく可能性もある。
微妙な点と引っかかり
褒めるばかりだとフェアでないので、引っかかった点もまとめておく。
ひとつは 依存先が MiniMax の API に固定されていること。画像生成は MiniMax の image モデル、音楽生成は MiniMax の music モデルで、他社モデルへ切り替える機構はまだない。たとえば「画像は Flux で出したい」みたいな要求には応えられない。Claude Code 利用者の多くは Anthropic / OpenAI / xAI のモデルを混ぜて使っているので、ここで MiniMax 単一になるのは違和感がある。
ふたつめは 品質のばらつき。MiniMax の音楽モデルは Suno と比べてもまだ波があり、特に日本語の歌詞での滑らかさは厳しい場面がある。プロンプト次第で「使える」と「これはちょっと…」の差が大きい。動画モデルも同様で、5 秒未満のクリップなら問題ないが、長尺になるほど破綻する。商用利用前に手元で何度か試したほうがよい。
3 つめは APIキーの扱い。グローバル環境変数で持つ設計のため、複数プロジェクトで違うキーを使い分けたい場合に少しだけ面倒。.env ファイル経由のサポートは入っているが、Claude Code 側のセッションごとの切り替えとはまだ整合しきれていない。
それでも触る価値はある
総合的には、「Claude Code を持っているなら 5 分で試すべき」 と言える OSS だ。インストールがほぼゼロコスト、入れて損はない。気に入らなければ消せばいいだけ。
中国系 AI ツールはここしばらく、Qwen 3.6-Plus のようなモデル単体での進化が目立っていたが、MMX-CLI は 「西側のエージェントに溶け込む」 方向の動きとして新しい。Claude Code や Cursor で完結する開発文化に、中国製ツールが裏方として入り込んでくるルートが、ここで 1 本できた。
vibe coding の周辺で「コードを書く」以外の作業を AI に投げたい人は、いちどこの CLI を覗いてみる価値がある。MCP より敷居が低く、効果は地味にデカい。
関連記事
Twitterの創業者が作ったAIエージェントが無料公開された — Gooseの立ち位置
BlockのオープンソースAIエージェントGooseがLinux FoundationのAAIFに移管。Rust製、29K★、MCP 3000+ツール対応の実力と、Claude Code/Codex CLIとの立ち位置の違いを整理する。
OpenCode — Claude Codeは最強だが月額$200は払えない。14万スターのOSS代替を本気で比較した
OpenCodeとClaude Codeを実際に使い比べ、性能・コスト・モデル自由度を正直に比較。月額$0で始められるOSSターミナルAIコーディングの実力を検証する。
OpenBrowser-AI — トロント大の学生4人が作ったOSSブラウザエージェントが、browser-useをトークン2.6倍効率で上回った話
OpenBrowser-AIはCDP直叩き設計のOSSブラウザエージェント。LLMがPythonを永続名前空間で実行する方式で、browser-use等より2.6倍トークン効率を実現。仕組みと導入手順を解説。