カメラに映した手書きスケッチからReactアプリを作る — Qwen 3.5-Omniの衝撃と、クローズド化の波紋
紙に描いたUIのスケッチをカメラで映す。「これをReactで実装して」と声で指示する。数十秒後、動くWebページのコードが返ってくる。

これはデモ動画の演出ではない。Qwen 3.5-Omniが実際にやってのけた「創発的能力」だ。モデルの開発チームすら、学習時に明示的に教えたわけではないと認めている。
テキスト・画像・音声・動画を1つのモデルで
Qwen 3.5-Omniは、Alibabaの通義千問チームが2026年3月30日にリリースしたネイティブマルチモーダルモデルだ。テキスト、画像、音声、動画のすべてを1つのパイプラインで処理する。
「ネイティブ」がポイントだ。GPT-4oのように個別モデルを内部で繋ぐのではなく、最初から全モダリティを統合して訓練されている。動画を送れば、中間パイプラインなしで直接レスポンスが返る。
音声入出力も搭載しており、74言語の音声認識と36言語の音声合成をサポートする。中国語方言だけで39に対応しているのは、Alibabaの国内市場を意識した設計だろう。
3つのバリアント
Plus、Flash、Lightの3モデルで展開している。
Plusは最も高性能で、256Kトークンのコンテキストウィンドウを持つ。10時間以上の音声や400秒以上の720p動画を一度に処理できる。Gemini 3.1 Proを音声理解で上回り、推論・コーディングタスクでも同等以上のスコアを出している。
Flashはコストと性能のバランスを取ったモデル。日常的なタスクならこれで十分だ。
Lightは応答速度重視。リアルタイムの音声対話やチャットボットに向いている。
料金は驚くほど安い。テキスト入力でGPT-4oの6分の1(Plus)から25分の1(Flash)。音声入力ではGPT-4o Realtimeの8分の1だ。この価格差は、特にAPIを大量に叩くアプリケーション開発者にとって無視できない。
ターンテイキングの自然さ
素直に感心したのが、音声対話における「割り込み認識」だ。
通常のAI音声対話では、ユーザーが途中で声を出すと会話が中断される。Qwen 3.5-Omniは、ユーザーの発話が「あいづち」なのか「割り込み」なのかを区別する。「へえ」「うん」と相槌を打っている間はそのまま話し続け、実際に会話のターンを取ろうとしたときだけ発話を止める。
全二重通話のようなこの挙動は、カスタマーサポートや教育アプリでの活用を大きく広げる。AIとの会話が「交互に喋る」から「自然に会話する」に変わる。
オープンソースからの転換
ここまでは褒めてきたが、ひとつ見過ごせない論点がある。
Qwen 3.5のテキストモデル群(9B〜397B)はApache 2.0でオープンウェイト公開されている。だがOmniのPlus版とFlash版はクローズドソースだ。APIまたはチャットサイト経由でしか使えない。
AlibabaのQwenチームはこれまでオープンソースの旗振り役だった。DeepSeekと並んで「中国発のオープンAI」の象徴だったとも言える。そのQwenが最も高性能なマルチモーダルモデルをクローズドにしたのは、収益化へのシフトを示している。
Light版のみオープンウェイトで公開されているが、Plus版を使うにはAlibaba Cloud経由でAPIを叩く必要がある。セルフホストで使い倒したいユーザーにとっては残念な制約だ。
カメラ→コードの可能性
冒頭で触れたスケッチからコード生成する能力は、思っている以上に実用的な場面がある。
ホワイトボードの議論を撮影して、そこに描かれたアーキテクチャ図をMermaid記法に変換する。手書きのワイヤーフレームからHTML/CSSの叩き台を作る。紙の帳票のレイアウトをそのままWebフォームに起こす。
これらは「動画を見てコードを書く」という学習をしたのではなく、マルチモーダル統合の結果として自然に出てきた能力だという。もしこれが安定して再現できるなら、プロトタイピングの初速が大きく変わる。
ただし現時点では、複雑なUIの再現精度にはムラがある。シンプルなレイアウトは高精度で変換するが、入り組んだダッシュボードのようなデザインでは手直しが必要になることも多い。
誰のためのモデルか
GPT-4oやGemini 3.1 Proに匹敵する性能を、数分の一の価格で使えるのがQwen 3.5-Omniの最大の売りだ。API呼び出しが多いサービスを運営している開発者にとって、コスト削減の選択肢として検討する価値は十分ある。
一方で、日本語の音声合成品質や、クローズドモデルへの依存に抵抗がある場合は、用途を選ぶ必要がある。まずはLight版をローカルで試し、品質が要件を満たすかを確認するのが堅実だろう。
関連記事
見て、考えて、コードを書いて、自分で検証する — Qwen 3.7-Plusが持つ5つのエージェント能力
Alibaba Qwen 3.7-Plusは画像・動画を理解するマルチモーダルAI。5つのエージェント能力、Maxとの違い、API料金を解説する。
35時間放置したらコードが10倍速くなっていた — Qwen 3.7 Maxの自律コーディング実験
Qwen 3.7 Maxが知能指数1位。Opus比1/10の料金で35時間自律コーディング。性能と制約を整理
AIに「航空券取って」と言ったら、本当に予約が完了した — Qwenアプリが始めた外部連携の全容
AlibabaのQwenアプリが中国東方航空と連携し、チャットだけで航空券予約を完結。さらにBYDなど9社のEVにも搭載。AIエージェントが実取引を行う時代の中身を整理する。