ゲームエンジンなしでゲームを作る — AIが映像をリアルタイム生成するWaypoint-1.5の衝撃
WASDキーで歩き回る。マウスで視点を動かす。目の前に広がる森や建物は、1フレームごとにAIが生成している。
これはゲームエンジンで作られた世界ではない。拡散モデル(Diffusion Model)が映像をリアルタイムに「想像」して出力している。3Dモデルもテクスチャもない。あるのは、1万時間分のゲームプレイ映像で学習したニューラルネットワークだけだ。
Overworldが開発するWaypoint-1.5は、この「ゲームエンジンの代わりにAIが世界を描く」というアイデアを、消費者向けGPU上でリアルタイムに動かすことに成功したオープンソースのワールドモデルだ。
拡散モデルがゲームになるまで
従来のゲームでは、開発者が3Dモデル・テクスチャ・物理エンジン・ライティングをすべて手作業で組み上げる。Waypoint-1.5のアプローチはこの工程を丸ごとスキップする。
基盤は「frame-causal rectified flow transformer」と呼ばれるアーキテクチャで、2.3Bパラメータ。1万時間のゲームプレイ映像と、その際のキーボード・マウス入力、テキストキャプションを紐付けて学習している。モデルは過去のフレームから次のフレームを「予測」するのではなく、ノイズからフレームをデノイズ(生成)する。つまり1秒間に30〜60回、AIが「この操作をしたら次はこう見えるはず」という映像を描き出している。
学習手法にも工夫がある。まず「diffusion forcing」で未来のフレームを過去のフレームから生成する基本能力を獲得し、続いて「self forcing」で推論時の挙動と学習時の条件を一致させる後処理を行う。これによって長時間のインタラクションでも映像が崩壊しにくくなっている。
ローカルGPUで720p・60fps
Waypoint-1.5は4月9日にリリースされた。前バージョンから学習データを約100倍に拡大し、映像品質が大きく向上。GeForce RTX 5090であれば720p・60fpsで動作し、より広い消費者GPUでも360pモデルが利用できる。
専用の推論エンジン「WorldEngine」がリアルタイム性を支えており、秒間3万トークンパスを処理する。Apache 2.0ライセンスでHugging Face上に公開されており、誰でもダウンロードしてローカルで試せる。
筆者がこのプロジェクトに注目する理由は、OSSであることと消費者GPUで動くことの組み合わせだ。クラウドAPIに依存しない。月額料金もかからない。自分のマシンで動く。この三拍子が揃っているAI技術は、実験と改良のサイクルがコミュニティ主導で回りやすい。
正直、まだ「ゲーム」とは呼べない
ただし現時点では、Waypoint-1.5の生成する映像は「ゲームとして遊べる」レベルには達していない。
テクスチャはところどころぼやけ、物理法則を正しくシミュレーションしているわけではないので、壁を突き抜けたり物体が宙に浮いたりする。操作に対するフィードバックも、従来のゲームエンジンのような精密さはない。解像度も720pが上限で、商用ゲームの4K映像とは比べようがない。
それでも「ここまで来たか」という感覚は強い。つい1年前まで、拡散モデルで動画を生成するには数分〜数十分かかっていた。それがキーボード入力に応じてリアルタイムで映像が変化するところまで来ている。速度のブレイクスルーという意味では、AIの進化速度を体感できるデモとして一見の価値がある。
この先にあるもの
Waypoint-1.5の技術が成熟すれば、ゲーム開発の構造そのものが変わる可能性がある。
たとえば、テキストで「中世ヨーロッパの城下町」と指定するだけで、プレイヤーが歩き回れる世界が生成される。レベルデザイナーが何ヶ月もかけて作っていた環境を、AIが数秒で生成する時代だ。ゲーム開発だけでなく、建築のウォークスルーシミュレーション、教育用の仮想環境、映画のプリビジュアライゼーションなど、インタラクティブな3D空間が必要なあらゆる分野に応用が広がる。
もちろん「AIが生成する世界」が、人間のアーティストが丹念に作り込んだ世界の代わりになるかどうかは別の議論だ。ゲームの価値はグラフィックだけではなく、物語やゲームデザインにこそある。だが「プロトタイピングの速度」という観点では、ワールドモデルは圧倒的なポテンシャルを持っている。
RunwayのGWM-1など、大手も同じ方向を目指しているが、OverworldのWaypoint-1.5はOSSで消費者GPUで動くという点で、アクセスのハードルが格段に低い。この領域のオープンソースの旗手として、今後のアップデートに期待したい。
関連記事
HTMLを書くと動画になる — HeyGenがオープンソースで出した「コードで動画編集」の衝撃
HeyGen発のOSSフレームワークHyperFramesを解説。HTML/CSS/JSで動画を作り、Claude Codeから1コマンドで実行できる仕組みと可能性を掘り下げる。
OpenClawが午前3時に"夢を見て"記憶を整理するようになった — v2026.4.5が追加した3段階メモリと動画生成
OpenClaw v2026.4.5が4月5日リリース。Light/REM/Deepの3段階メモリ統合Dreaming、xAI・Wan・Runway動画生成バンドル、12言語UI、ClawHub 44,000スキルの実態を解説する。
HappyHorse-1.0 — 正体不明のまま首位になった動画AIが、Alibabaだった
Alibabaが自社開発を認めた15BのオープンソースAI動画モデルHappyHorse-1.0。Seedance 2.0を60点差で突き放した実力と、Apache 2.0で公開された意味を整理する。