コーディングAIを「クラウドに放り投げる」時代が来た — Mistral Medium 3.5とVibe Remote Agentsの正体
ローカルで走らせていたコーディングエージェントを、途中でクラウドに「テレポート」できたらどうなるか。
Mistral AIが4月29日にリリースしたMistral Medium 3.5は、そんな発想を現実にした。128Bパラメータの密なモデルをベースに、CLI上の作業セッションをワンコマンドでクラウドに移行し、自分はPCを閉じて帰る。エージェントが作業を終えたらプルリクエストが届く。
これまでMistralは用途別にモデルを分けてきた。チャット用にMistral Large、推論にMagistral、コーディングにDevstral。Medium 3.5はそのすべてを1つの重みに統合した、同社初の「旗艦統合モデル」だ。
128Bの密なモデルが意味すること
Medium 3.5は128Bパラメータの密(Dense)モデルで、コンテキスト長は256k。最近のトレンドであるMixture-of-Experts(MoE)ではなく、全パラメータが毎回の推論に参加する。
SWE-Bench Verifiedでは77.6%を記録し、Devstral 2やQwen 3.5 397Bを上回った。注目すべきは、397Bのモデルより小さい128Bでこのスコアを出している点だ。密モデルの強みは推論のレイテンシが予測しやすいことにある。MoEのようにルーティングの揺れが生じないため、エンタープライズ環境でのコスト管理がしやすい。
もう一つの特徴は、推論の「深さ」をリクエストごとに変えられること。軽い質問には浅い推論で高速に返し、複雑なコーディングタスクには深い推論で精度を上げる。モデルを切り替える必要がない。
Vibe Remote Agents — 「テレポート」の仕組み
Vibe Remote Agentsは、Mistral Vibe CLIまたはLe Chatからクラウド上のサンドボックスにコーディングセッションを送り込む機能だ。
流れはこうなる。ローカルのCLIでコーディングセッションを始め、途中で teleport する。するとセッションの履歴、タスクの状態、承認待ちの内容がすべてクラウドに移行される。クラウド側ではリポジトリがクローンされ、エージェントがファイルの読み書き、コマンド実行、コード編集を自律的に進める。進捗はLe Chat上でリアルタイムに確認でき、エージェントが判断に迷えばユーザーに質問が飛ぶ。完了するとプルリクエストが作成される。
複数のセッションを同時に走らせることも可能だ。たとえば「認証まわりのリファクタリング」と「テストカバレッジの拡充」を別々のリモートエージェントに投げ、自分はアーキテクチャの検討に集中する、という使い方が現実的になる。
ただし、テレポートは現時点で一方通行だ。クラウドに移したセッションをローカルに引き戻すことはできない。クラウド上のセッションはLe Chatからのみ操作する。
Le Chat Work Mode — チャットからエージェントへ
Le Chatに新設された「Work Mode」は、Medium 3.5を搭載したエージェントがマルチステップのタスクを自律的にこなす機能だ。リサーチ、分析、ツール横断の作業を、複数のツールを並列に呼びながら完了まで走り続ける。
GitHub、Linear、Jira、Sentry、Slack、Teamsと連携し、イシュー管理からインシデント対応、報告まで一気通貫で処理できる。Cursorの「Background Agents」やOpenAIのCodexが狙っている領域と同じだが、MistralはこれをLe Chatという汎用チャットインターフェースから提供している点が異なる。
Work ModeはPro、Team、Enterpriseプランで利用可能。無料プランでは使えない。
料金と利用方法
API経由の料金は入力100万トークンあたり$1.5、出力$7.5。GPT-4o(入力$2.5、出力$10)やClaude Sonnet 4.6(入力$3、出力$15)と比べるとかなり安い。日本円換算で、100万トークンの入出力あわせて約1,350円(1ドル=150円換算)。
オープンウェイトで公開されており、ライセンスはmodified MIT。Hugging Faceからダウンロードできる。自社サーバーで動かす場合、GPU 4台(80GB VRAM)で推論が可能とされている。H100 4台で済むなら、月額のAPI費用と比較して自前運用のほうが安くなるケースも出てくるだろう。
Le Chat経由なら、Proプラン(月額約$15〜)でMedium 3.5とVibe Remote Agentsの両方を利用できる。
正直な評価
SWE-Benchの77.6%は確かに高い。しかしこのベンチマークは「GitHubのイシューを自動で修正する」タスクに特化しており、日常のコーディング体験がそのまま77.6%分よくなるわけではない。
Vibe Remote Agentsの「テレポート」コンセプトは魅力的だが、一方通行という制約は大きい。クラウドに投げたあとに「やっぱりローカルで細かく調整したい」と思っても戻せない。この点はCursorのBackground Agentsのほうが柔軟だ。
一方で、API料金の安さは本物の強みだ。Claude Sonnet 4.6の半額以下で、SWE-Benchスコアは互角かそれ以上。コスト重視でコーディングエージェントを組む場合、Medium 3.5は有力な選択肢になる。
オープンウェイトで128Bの旗艦モデルを出したこと自体が、2026年のAI市場において意味を持つ。MetaのLlama、AlibabaのQwen、そしてMistralが、クローズドモデルに対抗できるオープンモデルの選択肢を広げている。Medium 3.5が加わったことで、「オープンモデルでもエンタープライズグレードのコーディングエージェントが組める」という主張がより説得力を増した。
テレポートの制約が解消され、双方向のセッション移行が実現すれば、「ローカルで着手→クラウドで並列実行→ローカルで仕上げ」という理想的なワークフローが完成する。Mistralがその方向に進むかどうかが、Vibe Remote Agentsの真価を決めるだろう。
関連記事
Mistralが縛りを外した — Codestral 2がApache 2.0で降ってきた日
Mistralがコード生成モデルCodestral 2をApache 2.0で公開。前モデルの商用制限が外れた意味、22Bのスペック、DeepSeek CoderやQwen3との立ち位置、ローカルで動かす現実的な使い道を整理する。
GPU1枚でClaude Opus 4.5と並ぶ — Qwen3.6-27Bという「密モデル」の衝撃
Alibaba発のQwen3.6-27Bは27Bパラメータの密モデルでClaude Opus 4.5級のコーディング性能を実現。RTX 4090で動くフロンティア級モデルの実力と限界を解説。
DeepSeek V4が正式公開。入力$0.14、Apache 2.0 — 「安すぎて怖い」は本当か
DeepSeek V4 ProとFlashが正式ローンチ。1.6TパラメータMoEでGPT-5.4・Claude Opus 4.6級の性能を、入力$0.14〜$1.74で提供。ベンチマーク・料金・実用性を整理する。