カメラに映した手書きスケッチからReactアプリを作る — Qwen 3.5-Omniの衝撃と、クローズド化の波紋
紙に描いたUIのスケッチをカメラで映す。「これをReactで実装して」と声で指示する。数十秒後、動くWebページのコードが返ってくる。

これはデモ動画の演出ではない。Qwen 3.5-Omniが実際にやってのけた「創発的能力」だ。モデルの開発チームすら、学習時に明示的に教えたわけではないと認めている。
テキスト・画像・音声・動画を1つのモデルで
Qwen 3.5-Omniは、Alibabaの通義千問チームが2026年3月30日にリリースしたネイティブマルチモーダルモデルだ。テキスト、画像、音声、動画のすべてを1つのパイプラインで処理する。
「ネイティブ」がポイントだ。GPT-4oのように個別モデルを内部で繋ぐのではなく、最初から全モダリティを統合して訓練されている。動画を送れば、中間パイプラインなしで直接レスポンスが返る。
音声入出力も搭載しており、74言語の音声認識と36言語の音声合成をサポートする。中国語方言だけで39に対応しているのは、Alibabaの国内市場を意識した設計だろう。
3つのバリアント
Plus、Flash、Lightの3モデルで展開している。
Plusは最も高性能で、256Kトークンのコンテキストウィンドウを持つ。10時間以上の音声や400秒以上の720p動画を一度に処理できる。Gemini 3.1 Proを音声理解で上回り、推論・コーディングタスクでも同等以上のスコアを出している。
Flashはコストと性能のバランスを取ったモデル。日常的なタスクならこれで十分だ。
Lightは応答速度重視。リアルタイムの音声対話やチャットボットに向いている。
料金は驚くほど安い。テキスト入力でGPT-4oの6分の1(Plus)から25分の1(Flash)。音声入力ではGPT-4o Realtimeの8分の1だ。この価格差は、特にAPIを大量に叩くアプリケーション開発者にとって無視できない。
ターンテイキングの自然さ
素直に感心したのが、音声対話における「割り込み認識」だ。
通常のAI音声対話では、ユーザーが途中で声を出すと会話が中断される。Qwen 3.5-Omniは、ユーザーの発話が「あいづち」なのか「割り込み」なのかを区別する。「へえ」「うん」と相槌を打っている間はそのまま話し続け、実際に会話のターンを取ろうとしたときだけ発話を止める。
全二重通話のようなこの挙動は、カスタマーサポートや教育アプリでの活用を大きく広げる。AIとの会話が「交互に喋る」から「自然に会話する」に変わる。
オープンソースからの転換
ここまでは褒めてきたが、ひとつ見過ごせない論点がある。
Qwen 3.5のテキストモデル群(9B〜397B)はApache 2.0でオープンウェイト公開されている。だがOmniのPlus版とFlash版はクローズドソースだ。APIまたはチャットサイト経由でしか使えない。
AlibabaのQwenチームはこれまでオープンソースの旗振り役だった。DeepSeekと並んで「中国発のオープンAI」の象徴だったとも言える。そのQwenが最も高性能なマルチモーダルモデルをクローズドにしたのは、収益化へのシフトを示している。
Light版のみオープンウェイトで公開されているが、Plus版を使うにはAlibaba Cloud経由でAPIを叩く必要がある。セルフホストで使い倒したいユーザーにとっては残念な制約だ。
カメラ→コードの可能性
冒頭で触れたスケッチからコード生成する能力は、思っている以上に実用的な場面がある。
ホワイトボードの議論を撮影して、そこに描かれたアーキテクチャ図をMermaid記法に変換する。手書きのワイヤーフレームからHTML/CSSの叩き台を作る。紙の帳票のレイアウトをそのままWebフォームに起こす。
これらは「動画を見てコードを書く」という学習をしたのではなく、マルチモーダル統合の結果として自然に出てきた能力だという。もしこれが安定して再現できるなら、プロトタイピングの初速が大きく変わる。
ただし現時点では、複雑なUIの再現精度にはムラがある。シンプルなレイアウトは高精度で変換するが、入り組んだダッシュボードのようなデザインでは手直しが必要になることも多い。
誰のためのモデルか
GPT-4oやGemini 3.1 Proに匹敵する性能を、数分の一の価格で使えるのがQwen 3.5-Omniの最大の売りだ。API呼び出しが多いサービスを運営している開発者にとって、コスト削減の選択肢として検討する価値は十分ある。
一方で、日本語の音声合成品質や、クローズドモデルへの依存に抵抗がある場合は、用途を選ぶ必要がある。まずはLight版をローカルで試し、品質が要件を満たすかを確認するのが堅実だろう。
関連記事
パラメータの9割を寝かせて勝つモデル vs 全弾フル稼働の31B — Qwen 3.6とGemma 4、開発者はどちらを選ぶべきか
Qwen3.6-35B-A3BとGemma 4-31Bを主要ベンチマーク・VRAM消費・ライセンスで比較。用途別の選び方を整理した。
Qwen3.5にClaude Opus 4.6の思考を「移植」した27Bモデルが静かに首位を取った話
Jackrongが公開したQwen3.5-27B Claude-4.6-Opus-Reasoning-Distilledが、Hugging Face Trending1位に。Apache-2.0ライセンスでClaude風の<think>推論をローカル再現。v1/v2の違いとMLX/GGUF展開を整理する。
Qwen 3.6 Plus — 無料で100万トークン、Opus級ベンチマーク。代償はデータだけか
Alibaba最新のQwen 3.6 Plusは1Mコンテキスト、Claude Opus比18分の1の価格、OpenRouterで無料利用可。ベンチマーク、速度、データ収集の実態を検証する。