コストは50分の1、コンテキストは12倍 — 「Transformerの次」を名乗るSubQの実力

AIモデルの進化を阻んでいるボトルネックは、実はモデルの「頭の良さ」ではない。コンテキストウィンドウ — つまり一度に読める情報量の限界だ。

Claude Opus 4.7が100万トークン、Gemini 3.1 Proが100万トークン。これでも大量の文書やコードベースを丸ごと読ませるには足りない場面がある。しかも、コンテキストが長くなるほどコストは二次関数的に膨れ上がる。Transformerアーキテクチャの宿命だ。

5月5日、この前提を根本から覆すモデルが登場した。SubQは1,200万トークンのコンテキストウィンドウを持ち、フロンティアモデルの50分の1のコストで動作する。しかもベンチマークではClaude Opusを上回る。

Transformerの「二次関数」問題

なぜこれが重要なのかを理解するには、Transformerの構造的な弱点を知る必要がある。

Transformerのアテンション機構は、入力されたすべてのトークンを互いに比較する。10万トークンの入力なら、10万×10万=100億回の計算が必要になる。入力が2倍になれば計算量は4倍。これが「二次関数的」と呼ばれる理由で、コンテキストを長くするほどコストが爆発する。

FlashAttentionやRingAttentionといった最適化技術である程度は緩和できるが、根本的な二次関数の壁は残る。100万トークンの処理でも数千ドルかかることがあり、1,200万トークンとなれば既存アーキテクチャでは実用的なコストに収まらない。

SubQの解決策: 「全部見ない」

SubQが採用するSSA（Subquadratic Sparse Attention）は、発想を逆転させた。すべてのトークンを比較する代わりに、「このクエリにとって本当に重要なトークンだけを選んで注目する」仕組みだ。

content-dependent selection（内容依存型選択）と呼ばれるこの方式は、入力の中身に応じて「どの位置が関連するか」を動的に判断する。不要なトークンへのアテンション計算をスキップすることで、計算量がコンテキスト長に対して線形（一次関数的）に増加する。二次関数ではなく一次関数。この差は、コンテキストが長くなるほど劇的に開く。

具体的な数字でいえば、100万トークンの時点でFlashAttentionの52倍高速。1,200万トークンでは、アテンション計算量を従来比で約1,000分の1に削減する。

ベンチマークはどうか

数字は印象的だ。

RULER 128K（長文コンテキスト理解のベンチマーク）で97%。Claude Opus 4.6の94%を上回った。MRCR v2（複数の「針」を長文の中から見つけ出すマルチニードル検索テスト）ではスコア83。Opusが78、GPT-5.4が39、Gemini 3.1 Proが23。長文処理に特化した設計の面目躍如だ。

コスト面では、RULER 128Kテストの実行に約8ドル。フロンティアモデルで同じテストを走らせると約2,600ドルかかるとされる。

ただし注意点もある。現時点で公開されているのは「SubQ 1M-Preview」、つまり100万トークンまでの実用版だ。1,200万トークンは研究段階の結果であり、API経由で一般に使える状態ではない。また、短いコンテキストでの汎用的な性能（コーディング、推論、一般知識）については、フロンティアモデルに追いつけていない可能性がある。長文特化型モデルの常として、すべてのタスクでClaude Opusの代替になるわけではない。

何に使えるのか

SubQの強みが最も活きるのは、大量の文書を一括で処理する場面だ。

法務文書のデューデリジェンス、数百ファイルにまたがるコードベースの全体把握、学術論文の大量レビュー。こうしたタスクでは、現在のフロンティアモデルではコンテキストウィンドウに入り切らないか、入ったとしてもコストが非現実的になる。SubQはこの隙間を直接埋める。

SubQ Code（コーディング支援）とSubQ Search（深層検索ツール）がプライベートベータで提供されており、Q4には5,000万トークンのコンテキストウィンドウを目標にしているという。5,000万トークンといえば、中規模のソフトウェアプロジェクトの全ソースコードと全ドキュメントを丸ごと読み込めるスケールだ。

約43億円のシード、そしてこれから

Subquadraticは$29M（約43億円）のシード資金を調達している。フロンティアモデル企業の調達額と比べると控えめだが、アーキテクチャ革新を武器にしたスタートアップとしては十分だ。

正直に言えば、SubQの価値はまだ「証明の途中」だ。研究段階の1,200万トークンが本当に実用レベルで安定するのか、短文タスクの性能がどこまで改善されるのか、そしてOpenAIやAnthropicが同様のサブクアドラティック技術を自社モデルに組み込むまでの時間的優位がどれだけ続くのか。

それでも、Transformerの二次関数の壁を正面から突破するアプローチには技術的な説得力がある。「コンテキストが長いほどコストが下がる」という逆転の経済性が実現すれば、AIの使い方そのものが変わる。これまで「要約してから読ませる」必要があったドキュメント群を、そのまま丸ごとAIに渡せるようになるからだ。

SubQがTransformerの後継になるかどうかはまだ分からない。だが少なくとも、「Transformerが唯一の選択肢ではない」ことを証明した意義は大きい。

コストは50分の1、コンテキストは12倍 — 「Transformerの次」を名乗るSubQの実力

Transformerの「二次関数」問題

SubQの解決策: 「全部見ない」

ベンチマークはどうか

何に使えるのか

約43億円のシード、そしてこれから

関連記事

AMI Labs — 「LLMは行き止まり」と断言するチューリング賞受賞者が、10億ドルで賭けに出た

ChatGPTが「嘘をつきにくく」なった — GPT-5.5 Instantへの静かな切り替えで何が変わるか

Mistralが縛りを外した — Codestral 2がApache 2.0で降ってきた日