GLM-5.1 — SWE-Bench Proで首位を奪った中国発OSSモデル、8時間自律コーディングの実力と死角

SWE-Bench Proのスコアボードが塗り替えられた。2026年4月7日、中国のZ.ai（旧・智譜AI）がリリースした GLM-5.1 がスコア58.4を記録し、GPT-5.4（57.7）とClaude Opus 4.6（57.3）を抜いて首位に立った。

オープンウェイト。MITライセンス。744Bパラメータ。

この3つのキーワードだけで、AIコーディング界隈がざわつくには十分だった。だが、ヘッドラインの数字だけを見て「中国がトップを取った」と片付けるのは早い。ベンチマークの全体像を見ると、もう少し複雑な景色が見えてくる。

GLM-5.1

Z.aiとは何者か

GLM-5.1を語るには、まずZ.aiという会社を知る必要がある。

前身は 智譜AI（Zhipu AI）。2019年に北京の清華大学からスピンアウトしたAI企業で、Meituan、Alibaba、Tencent、Xiaomiといった中国テック大手が出資してきた。2026年1月には 香港証券取引所に上場。IPOで5.58億ドルを調達し、時価総額は約66億ドル（約1兆円）に達している。中国の「AI四天王」の中で最初にIPOを果たしたのがこの会社だ。

国際ブランドとして「Z.ai」を名乗り始めたのは最近のことだが、GLMシリーズは中国国内では以前から広く使われている。GLM-4、GLM-5と着実にモデルを進化させてきた流れの最新版がGLM-5.1にあたる。

744Bの内側 — MoEで実質40B

744Bパラメータと聞くと巨大に感じるが、アーキテクチャはMixture-of-Experts（MoE）だ。1トークンあたりのアクティブパラメータは約40B。つまり、推論時に動いているのは全体の5%程度ということになる。

前世代のGLM-4.5（355B総パラメータ / 32Bアクティブ）からの進化幅を見ると、総パラメータ数は2倍以上に増えているが、アクティブパラメータの増加は25%程度。効率を重視した設計思想が読み取れる。学習データは28.5兆トークン。DeepSeekのSparse Attentionを取り入れてデプロイコストを抑えつつ、200Kトークンのコンテキストウィンドウを実現している。

出力上限は128Kトークン。これは長いコードベース全体を一度に生成できることを意味する。

「8時間自律コーディング」の中身

GLM-5.1の最大の売りは、単発のコード生成ではなく 長時間の自律稼働 だ。Z.aiはこれを「agentic engineering」と呼んでいる。

公式デモでは以下のような実例が示されている。

Linuxデスクトップ環境の構築。 ファイルブラウザ、ターミナル、テキストエディタ、インタラクティブなUIを含むデスクトップ環境を、8時間かけてゼロから構築した。人間の介入なし。自己レビューループを繰り返しながら完成に持っていく。

ベクトルDBの最適化。 178ラウンドの自律イテレーションでクエリ性能を初期バージョンの1.5倍に改善。延長実行では655回のイテレーションで6.9倍まで引き上げた。

CUDAカーネルのチューニング。 2.6倍のスピードアップから35.7倍まで、持続的な自律チューニングで到達。

従来の「プロンプトを投げて返ってきたコードを確認する」サイクルとは根本的に異なるアプローチだ。数百回のツールコールを自律的に繰り返し、実験→分析→最適化のループを何時間も回し続ける。正直、この持続力は素直にすごい。

ベンチマークの全体像 — 首位は一部だけ

ただし、GLM-5.1が「最強」かというと、そう単純ではない。

SWE-Bench Proでは確かにトップだが、他のベンチマークではこうなる。

SWE-Bench Verified — Claude Opus 4.6が80.8%でトップ。GLM-5.1は77.8%で4位圏。

Terminal-Bench 2.0 — GPT-5.4が75.1でリード。GLM-5.1は69で後塵を拝する。

NL2Repo — Claude Opus 4.6が49.8。GLM-5.1は42.7。

Vending Bench 2（コード収益化テスト） — Claude Opus 4.6が$8,017、GPT-5.4が$6,144。GLM-5.1は$5,634。

総合的なコーディング性能で見ると、GLM-5.1はClaude Opus 4.6の 約94.6% という分析がある。SWE-Bench Pro単体では勝っているが、汎用的なコーディング能力では依然としてClaudeやGPTに及ばない領域がある。

さらに言えば、SWE-Bench Proのスコアは Z.aiによる自己申告 で、独立した第三者検証はまだ完了していない。この点は留意しておくべきだろう。

料金 — 安いが、落とし穴がある

APIの料金体系は以下の通り。

入力: 約$1.00〜1.40 / 100万トークン（約150〜210円）
出力: 約$3.20〜4.40 / 100万トークン（約480〜660円）
キャッシュ: $0.26 / 100万トークン

Claude Opus 4.6（入力$15 / 出力$75）やGPT-5.4と比べると桁違いに安い。ここはオープンモデルの強みがはっきり出ている。

ただし、北京時間14:00〜18:00のピークアワーはクォータ消費が3倍になる。日本時間だと15:00〜19:00にあたる。日本から使う場合、夕方の作業時間帯にちょうど引っかかるのは少し厄介だ。

サブスクリプション型の「GLM Coding Plan」もある。Starterプランが月額約$3、Proプランが月額約$30。Claude Code、Cline、Kilo Code、OpenCodeなどのコーディングツールと連携して使える。

正直な評価 — 何ができて、何ができないか

強い点。 長時間の自律タスク実行は他のモデルにない独自の強み。数百回のイテレーションを自動で回せるのは、CI/CDパイプラインの構築やパフォーマンスチューニングのような反復的なタスクに特に向いている。MITライセンスでウェイトが完全公開されている点も、企業のオンプレ需要に合致する。

弱い点。 テキストオンリーで画像を処理できない。UIのスクリーンショットを見せてバグを直す、といったワークフローには使えない。推論速度は44.3トークン/秒で、同クラスのモデルの中では最も遅い。リアルタイムのIDE補完には不向きだ。セルフホストには最低でもNVIDIA HGX B200か8基のH100/H200が必要で、個人開発者がローカルで動かすのは現実的ではない。

これが意味すること

GLM-5.1の登場で見えてくるのは、AIコーディングモデルの競争軸が変わりつつあるということだ。

単発のコード生成精度では、Claude Opus 4.6やGPT-5.4がまだ総合力で上回る。だが、GLM-5.1が切り拓いた「何時間も自律で回り続けるエージェント」という方向性は、これまでのベンチマークでは測りきれない価値を持っている。

CUDAカーネルを35.7倍まで最適化するのに人間が655回のイテレーションを手動で回すことは現実的にはない。こうした「人間にはできないが、AIなら時間をかければできる」タスクこそが、GLM-5.1の本当の競争領域だろう。

しかもMITライセンスだ。この性能のモデルが完全にオープンで手に入る。ファインチューニングも商用利用も自由。中国発のオープンモデルが、プロプライエタリなフロンティアモデルの背中を捉えた事実は、モデルの選択肢が確実に広がっていることを意味する。

Z.ai公式サイト / GitHub / OpenRouter

GLM-5.1 — SWE-Bench Proで首位を奪った中国発OSSモデル、8時間自律コーディングの実力と死角

Z.aiとは何者か

744Bの内側 — MoEで実質40B

「8時間自律コーディング」の中身

ベンチマークの全体像 — 首位は一部だけ

料金 — 安いが、落とし穴がある

正直な評価 — 何ができて、何ができないか

これが意味すること

関連記事

35時間放置したらコードが10倍速くなっていた — Qwen 3.7 Maxの自律コーディング実験

12日間で4社が出揃った — 中国AIコーディングモデル比較、どれを使うのが正解か

Cursor 3.2 — 「同時に5つやって」が本当に通じるIDEになった