コード100万トークンを一度に読むOSSモデル — GLM-5.2がベンチマークなしで出荷された理由

6月13日、中国の智譜AI（Z.ai）がGLM-5.2をリリースした。コーディング特化の大規模言語モデルで、コンテキストウィンドウは100万トークン。MITライセンスのオープンウェイトが翌週に公開される予定だ。

ただし、ベンチマークスコアは一切公開されていない。

通常、フロンティアモデルのリリースにはSWE-benchやHumanEvalのスコアが付き物だ。GLM-5.1がSWE-Bench Proで首位を取ったときもスコアカードが話題の中心だった。今回それがないのは、「数字で語る」より「触って確かめろ」に舵を切ったということだろう。

何が変わったのか

GLM-5.2の基盤はGLM-5と同じMoEアーキテクチャで、総パラメータ744B、推論時のアクティブパラメータは約40B。256個のエキスパートのうち8個が選択される構造は前モデルと共通だ。

変わったのはコンテキスト長と出力長だ。

コンテキストウィンドウが100万トークンに拡張されたことで、中〜大規模リポジトリのコードベースを丸ごとモデルに読ませることが技術的に可能になった。出力トークンの上限も131,072トークンと大きく、一度の応答で数千行のコードを生成できる計算になる。

これはリポジトリ全体を理解した上でリファクタリングや機能追加を行う「エージェンティック・コーディング」に向けた設計だ。ファイル単位のコード補完とは根本的に異なるスケールの作業が想定されている。

使い方と互換性

GLM-5.2はZ.aiの全コーディングプラン（Lite / Pro / Max / Team）で即日利用可能だ。APIはOpenAI互換で、model: "glm-5.2[1m]" を指定するだけで使える。

注目すべきは対応ツールの広さだ。Claude Code、Cline、OpenCode、Roo Code、Goose、Kilo Codeなど主要なAIコーディングエージェントがそのまま接続できる。設定ファイルでモデル名を書き換えるだけで、今使っているコーディングツールからGLM-5.2を呼び出せる。

料金はGLM-5ベースで入力$1.00/100万トークン、出力$3.20/100万トークン。GLM-5.2固有の価格は未発表だが、コーディングプランLiteは月額$10から利用できる。DeepSeek V4 Proの値下げ後価格よりは高いが、OpenAIやAnthropicの同等モデルと比べると3分の1以下だ。

ベンチマークがない理由を考える

スコアを出さなかった判断は、正直意外だった。

GLM-5.1ではSWE-Bench Proのスコアで業界を驚かせただけに、5.2でもスコアで勝負するのが自然な流れだったはずだ。あえて出さなかった理由として考えられるのは2つある。

1つは、ベンチマーク競争からの意図的な離脱だ。「SWE-benchの数字は実際のコーディング能力と一致しない」という批判は以前からあり、数字で訴求するより実環境での使い勝手で勝負する方向に切り替えた可能性がある。

もう1つは、100万トークンのコンテキスト長という特性自体が、既存のベンチマークでは測定しにくいということだ。SWE-benchは比較的短いコンテキストでの修正タスクが中心で、リポジトリ丸ごとの理解力は評価できない。

どちらにせよ、「数字なしで出す」という判断ができるのは、GLM-5.1で築いた信頼があるからこそだ。逆に言えば、数字が出ないことでユーザーが自分で評価する必要があるという点は留意すべきだろう。

中国コーディングモデル三つ巴の今

GLM-5.2のリリースで、中国発のオープンソースコーディングモデルは三強の構図が鮮明になった。

DeepSeek V4は75%値下げで価格破壊を仕掛け、マルチモーダル対応で汎用性を広げている。Qwen 3.7 Maxは100万トークンの推論エージェントモデルとして、エージェント基盤での優位を狙う。そしてGLM-5.2は100万トークン＋MIT完全オープンで、コーディング特化の純粋なモデル性能で勝負する。

3つとも100万トークン級のコンテキストを持ち、3つともオープンウェイト。1年前には想像もできなかった水準のモデルが、無料または低コストで使える。

この競争で最も恩恵を受けるのは開発者だ。Claude CodeやClineのようなツールを使っている場合、バックエンドのモデルを差し替えるだけで中国発のフロンティアモデルを試せる。「どのモデルがどのタスクに向いているか」を自分で検証できる環境が整いつつある。

気になる点

100万トークンのコンテキストが実用的かどうかは、まだ検証が必要だ。コンテキスト長が大きいモデルでは、中間部分の情報を「忘れる」（Lost in the Middle問題）ことが知られている。公称100万トークンと実効的に活用できるトークン数は同じとは限らない。

また、GLM-5.2はコーディングに特化しているため、自然言語での対話やクリエイティブライティングでの性能は未知数だ。汎用モデルとしてDeepSeek V4やQwen 3.7を期待すると肩透かしを食う可能性がある。

MITライセンスのウェイトが予定通り来週公開されるかどうかも注視すべきポイントだ。中国AIモデルのオープン化は政策リスクと隣り合わせで、過去にも予告からスケジュールがずれたケースがある。

コード100万トークンを一度に読むOSSモデル — GLM-5.2がベンチマークなしで出荷された理由

何が変わったのか

使い方と互換性

ベンチマークがない理由を考える

中国コーディングモデル三つ巴の今

気になる点

関連記事

GLM-5.1 — SWE-Bench Proで首位を奪った中国発OSSモデル、8時間自律コーディングの実力と死角

12日間で4社が出揃った — 中国AIコーディングモデル比較、どれを使うのが正解か

Huaweiのコーディングエージェントが「タイ先行」で出てきた — CodeArts Agentという伏兵