35時間放置したらコードが10倍速くなっていた — Qwen 3.7 Maxの自律コーディング実験
1,158回のツールコール。432回のカーネル評価。5回のアーキテクチャ再設計。すべて人間の介入なし。
Alibaba Cloud Summit(5月20日)で発表されたQwen 3.7 Maxのデモは、AIモデルの自律コーディング能力を示すものとしては過去最長の部類だ。約35時間にわたってTritonカーネルの最適化タスクを走らせた結果、リファレンス実装に対して幾何平均10倍の高速化を達成した。
数字だけ見ると「すごいですね」で終わりそうだが、注目すべきは「5回のアーキテクチャ再設計」の部分だ。1回試してダメだったら根本から設計を変え、別のアプローチで再挑戦する。これはコードを書くだけでなく、戦略レベルの判断をモデルが自律的に行っていることを意味する。
Intelligence Index 1位の重み
Artificial Analysis Intelligence Indexでスコア57を獲得し、公開ベンチマーク上で1位を取った。LM ArenaのEloレーティングは約1,475。
この数字がどのくらいかというと、GPT-5.5やClaude Opus 4.7と同等か、ベンチマークによっては上回る水準だ。半年前のQwen 3.5がGPT-4oクラスだったことを考えると、AlibabaのモデルがOpenAIやAnthropicのフラグシップと正面から並ぶのは初めてと言っていい。
ただし、ベンチマークスコアと実用性能は別物だ。Qwen 3.6 Maxのときも「コーディングベンチマーク世界1位」を謳っていたが、実際の開発現場ではClaude Code + Opus 4.6の方が使いやすいという声が多かった。3.7 Maxが日常的なコーディングタスクでも同じ水準を出せるかは、まだ検証が必要だろう。
価格が「桁違い」に安い
Qwen 3.7 Maxの真の武器は価格だ。
| モデル | 入力(100万トークン) | 出力(100万トークン) |
|---|---|---|
| Qwen 3.7 Max | $2.50(約390円) | $7.50(約1,170円) |
| GPT-5.5 | $10 | $30 |
| Claude Opus 4.7 | $15 | $75 |
入力はGPT-5.5の4分の1、Claude Opus 4.7の6分の1。出力に至ってはOpus比で10分の1だ。
Intelligence Index上位のモデルがこの価格で使えるなら、大量のAPIコールを必要とするエージェント型ワークフローでのコスト構造が根本から変わる。35時間の自律コーディングデモは、まさにそのユースケースを意識した設計と見ていい。
1Mトークンのコンテキストウィンドウも備えており、大規模コードベースの横断分析や長いドキュメントの処理が1回のリクエストで完結する。
3.6 Maxから何が変わったか
前モデルのQwen 3.6 Maxは、コーディングベンチマークで世界1位を獲得しつつも「推論速度が遅い」「日本語のニュアンスが甘い」という課題があった。
3.7 Maxでは、推論モデルとしての位置づけがより明確になった。「エージェント時代のための推論モデル」というAlibaba自身の表現が象徴的で、長時間の自律タスク実行、ツールコール、コード生成のサイクルを回し続ける設計が前面に出ている。
プレビュー段階での出力速度は約3トークン/秒と報告されており、ここは正直かなり遅い。対話的なチャットには向かず、バックグラウンドで走らせる長時間タスクに特化した使い方が現実的だ。
オープンウェイトはまだ出ていない
Qwen 3.6までは35B-A3Bクラスのオープンウェイトモデルが同時に公開されていたが、3.7 MaxはAPI経由のみ。オープンウェイトの計画は現時点で発表されていない。
Qwen 3.6 Maxの時点で「オープンソースの旗手がクローズドに転向した」と書いたが、3.7 Maxではその方向がさらに固まった印象だ。フロンティアクラスのモデルはAPI課金で収益化し、オープンウェイトは中〜小サイズに限定するという二段構えが、Alibabaの現在の戦略だろう。
ローカル実行派にとっては残念だが、この価格帯であればAPIで使っても十分コスト効率は高い。
誰が使うべきか
Qwen 3.7 Maxが最もフィットするのは、以下のようなシナリオだ。
APIコストを抑えながらエージェントを大量に走らせたい開発者。Claude Opus 4.7の性能が必要だが月額料金が厳しいチーム。あるいは、35時間デモのような「放置型」の長時間自律タスクを回したい研究者。
一方で、リアルタイムのチャット体験を重視するなら、出力速度の遅さがネックになる。日本語での対話品質も、ClaudeやGPTと比べるとまだ差がある。
結局のところ、Qwen 3.7 Maxの立ち位置は「安くて賢いが、速くはない」だ。エージェント用途では圧倒的なコストパフォーマンスを発揮するが、日常的な対話パートナーとしてはClaude Sonnetの方が使いやすいだろう。それでも、この価格でフラグシップ級の知能が使えること自体が、業界全体の価格圧力になる。
関連記事
AIに「航空券取って」と言ったら、本当に予約が完了した — Qwenアプリが始めた外部連携の全容
AlibabaのQwenアプリが中国東方航空と連携し、チャットだけで航空券予約を完結。さらにBYDなど9社のEVにも搭載。AIエージェントが実取引を行う時代の中身を整理する。
オープンソースの旗手が「非公開」で最強を取りにきた — Qwen 3.6-Max-Previewの矛盾と実力
Alibaba Qwen 3.6-Max-Previewが6つのコーディングベンチマークで世界1位を獲得。初のクローズドモデルとなった背景、ベンチマーク分析、API料金、制約を解説する。
GPU1枚でClaude Opus 4.5と並ぶ — Qwen3.6-27Bという「密モデル」の衝撃
Alibaba発のQwen3.6-27Bは27Bパラメータの密モデルでClaude Opus 4.5級のコーディング性能を実現。RTX 4090で動くフロンティア級モデルの実力と限界を解説。