カメラに映した手書きスケッチからReactアプリを作る — Qwen 3.5-Omniの衝撃と、クローズド化の波紋

紙に描いたUIのスケッチをカメラで映す。「これをReactで実装して」と声で指示する。数十秒後、動くWebページのコードが返ってくる。

Qwen 3.5-Omni

これはデモ動画の演出ではない。Qwen 3.5-Omniが実際にやってのけた「創発的能力」だ。モデルの開発チームすら、学習時に明示的に教えたわけではないと認めている。

テキスト・画像・音声・動画を1つのモデルで

Qwen 3.5-Omniは、Alibabaの通義千問チームが2026年3月30日にリリースしたネイティブマルチモーダルモデルだ。テキスト、画像、音声、動画のすべてを1つのパイプラインで処理する。

「ネイティブ」がポイントだ。GPT-4oのように個別モデルを内部で繋ぐのではなく、最初から全モダリティを統合して訓練されている。動画を送れば、中間パイプラインなしで直接レスポンスが返る。

音声入出力も搭載しており、74言語の音声認識と36言語の音声合成をサポートする。中国語方言だけで39に対応しているのは、Alibabaの国内市場を意識した設計だろう。

Plus、Flash、Lightの3モデルで展開している。

Plusは最も高性能で、256Kトークンのコンテキストウィンドウを持つ。10時間以上の音声や400秒以上の720p動画を一度に処理できる。Gemini 3.1 Proを音声理解で上回り、推論・コーディングタスクでも同等以上のスコアを出している。

Flashはコストと性能のバランスを取ったモデル。日常的なタスクならこれで十分だ。

Lightは応答速度重視。リアルタイムの音声対話やチャットボットに向いている。

料金は驚くほど安い。テキスト入力でGPT-4oの6分の1（Plus）から25分の1（Flash）。音声入力ではGPT-4o Realtimeの8分の1だ。この価格差は、特にAPIを大量に叩くアプリケーション開発者にとって無視できない。

素直に感心したのが、音声対話における「割り込み認識」だ。

通常のAI音声対話では、ユーザーが途中で声を出すと会話が中断される。Qwen 3.5-Omniは、ユーザーの発話が「あいづち」なのか「割り込み」なのかを区別する。「へえ」「うん」と相槌を打っている間はそのまま話し続け、実際に会話のターンを取ろうとしたときだけ発話を止める。

全二重通話のようなこの挙動は、カスタマーサポートや教育アプリでの活用を大きく広げる。AIとの会話が「交互に喋る」から「自然に会話する」に変わる。

ここまでは褒めてきたが、ひとつ見過ごせない論点がある。

Qwen 3.5のテキストモデル群（9B〜397B）はApache 2.0でオープンウェイト公開されている。だがOmniのPlus版とFlash版はクローズドソースだ。APIまたはチャットサイト経由でしか使えない。

AlibabaのQwenチームはこれまでオープンソースの旗振り役だった。DeepSeekと並んで「中国発のオープンAI」の象徴だったとも言える。そのQwenが最も高性能なマルチモーダルモデルをクローズドにしたのは、収益化へのシフトを示している。

Light版のみオープンウェイトで公開されているが、Plus版を使うにはAlibaba Cloud経由でAPIを叩く必要がある。セルフホストで使い倒したいユーザーにとっては残念な制約だ。

冒頭で触れたスケッチからコード生成する能力は、思っている以上に実用的な場面がある。

ホワイトボードの議論を撮影して、そこに描かれたアーキテクチャ図をMermaid記法に変換する。手書きのワイヤーフレームからHTML/CSSの叩き台を作る。紙の帳票のレイアウトをそのままWebフォームに起こす。

これらは「動画を見てコードを書く」という学習をしたのではなく、マルチモーダル統合の結果として自然に出てきた能力だという。もしこれが安定して再現できるなら、プロトタイピングの初速が大きく変わる。

ただし現時点では、複雑なUIの再現精度にはムラがある。シンプルなレイアウトは高精度で変換するが、入り組んだダッシュボードのようなデザインでは手直しが必要になることも多い。

GPT-4oやGemini 3.1 Proに匹敵する性能を、数分の一の価格で使えるのがQwen 3.5-Omniの最大の売りだ。API呼び出しが多いサービスを運営している開発者にとって、コスト削減の選択肢として検討する価値は十分ある。

一方で、日本語の音声合成品質や、クローズドモデルへの依存に抵抗がある場合は、用途を選ぶ必要がある。まずはLight版をローカルで試し、品質が要件を満たすかを確認するのが堅実だろう。