FlowTune Media

見て、考えて、コードを書いて、自分で検証する — Qwen 3.7-Plusが持つ5つのエージェント能力

テキストだけで世界を理解しようとするのは、目を閉じたまま仕事をするようなものだ。

Alibabaが2026年6月2日にリリースしたQwen 3.7-Plusは、5月のQwen 3.7 Maxに「目」を与えたモデルだ。画像、動画、PDFの視覚情報を読み取り、それをもとに推論し、コードを書き、自分で検証し、必要なら最初からやり直す。Alibaba株はこの発表を受けて6%以上上昇した。

Maxとの違いは「目」があること

Qwen 3.7-Maxは中国AIモデルの知能指数ランキング1位(Intelligence Index v4.0で56.6点)のテキスト特化モデルだ。コーディングと推論に極めて強い。

Plusはそこに視覚理解を載せた派生モデルになる。テキストだけでなく、スクリーンショットを見てCSSのバグを特定したり、契約書PDFのレイアウトごと読み取って条項を分析したり、会議動画を要約してタイムスタンプ付きのポイントを抽出したりできる。

両モデルとも100万トークンのコンテキストウィンドウを持ち、最大35時間の自律実行に対応する。

5つのエージェント能力

Plusが「ただのマルチモーダルモデル」ではないのは、以下の5つの能力がセットで動くからだ。

ディープリーズニング。 複雑な問題を段階的に分解して考える。画像の中の表やグラフを読み取りながら推論を進められるので、データ分析や調査レポート作成との相性がいい。

セルフプログラミング。 必要に応じて自分でコードを書く。「このCSVを加工して可視化して」のような指示に対して、Pythonスクリプトを生成して実行する。

ツール呼び出し。 外部APIやツールを自律的に選択して呼び出す。検索エンジンでファクトチェックしたり、データベースに問い合わせたりできる。

検証とテスト。 自分が出した結果を自分で検証する。コードならテストを書いて実行し、レポートなら数値の整合性を確認する。ここが正直、一番重要な能力だと思う。「自分で書いて自分で直す」ができるかどうかで、エージェントとしての実用性が決まる。

自律的反復。 検証で問題が見つかれば、人間に聞き返さずにアプローチを変えて再試行する。これら5つが連鎖することで、タスクを丸ごと任せられるエージェントになる。

料金とアクセス方法

APIは入力100万トークンあたり2.50ドル(約375円)、出力100万トークンあたり7.50ドル(約1,125円)。プロンプトキャッシュを使えば入力コストが90%割引の0.25ドルまで下がる。Claude Sonnet 4.6やGPT-5.5 Instantと比べると、明確に安い価格帯だ。

利用はAlibaba Cloud Model Studio(百炼プラットフォーム)のほか、OpenRouter、Together AIからも可能。APIはOpenAI互換・Anthropic互換なので、既存のコードベースにそのまま差し替えられる。

気になる点

クローズドウェイトモデルである点は注意が必要だ。Qwenシリーズは従来、オープンウェイト版も出してきた実績があるが(3.6で実績あり)、Plusのオープン化はまだ発表されていない。ローカル実行やファインチューニングを前提としている場合は、オープンウェイト版を待つ必要があるだろう。

また、中国企業のクラウドサービスを利用することに対する組織のコンプライアンス要件も、特にエンタープライズ利用では確認が必要になる。OpenRouterやTogether AI経由でのアクセスが選択肢になる。

とはいえ、マルチモーダル対応のエージェントモデルがこの価格帯で使えるのは率直に魅力的だ。画面のスクリーンショットを渡して「このUIのバグを見つけてコードを修正して」と指示するだけでデバッグが完了する未来は、もうそこまで来ている。

関連記事