FlowTune Media

1枚の写真がリアルタイムで「話し相手」になる — Runway Charactersの仕組みと可能性

動画生成AIといえば「テキストを入れて数十秒待つ」のが当たり前だった。Runwayの新しいプロダクトは、その前提をひっくり返す。

Runway Characters

Runway Charactersは、1枚の写真からリアルタイムで対話できるAIキャラクターを生成するAPIだ。ファインチューニング不要。写真をアップロードするだけで、自然な唇の動き、表情、頭の動きを伴ったキャラクターがHD・24fpsで喋り始める。

これは動画生成ツールの延長ではない。「ビデオエージェント」という新しいカテゴリの話だ。

37ミリ秒のモデル処理、1.75秒で返答

技術的に驚くのはレイテンシだ。1フレームあたりのモデル処理時間は37ミリ秒。ユーザーが話し終えてからキャラクターが応答を始めるまでのサーバー側のターンアラウンドが1.75秒。人間同士の会話に近い間合いで、AIキャラクターとやり取りができる。

これを支えているのがRunwayの世界モデル GWM-1 だ。GWM-1は物理シミュレーションを含むビデオ生成に特化したモデルで、Gen-4.5の基盤にもなっている。Charactersではこのモデルを「リアルタイム推論モード」で動かしている。

従来のアバターツール——たとえばHeyGenやD-ID——はリップシンクの後付け処理が中心で、対話というより「動画メッセージの生成」に近かった。Charactersは双方向のリアルタイム対話を前提に設計されている点で、根本的にアプローチが異なる。

BBCが採用、ブランド体験の入口に

既にBBCとSilversideが初期パートナーとして採用している。

ユースケースとして目立つのはカスタマーサポートだ。キャラクターは企業のナレッジベースにアクセスし、在庫に基づいて注文を受け、サポートチケットを作成できる。テキストチャットボットにはない「顔が見える対応」を、人件費ゼロで24時間提供できるわけだ。

教育分野も有望だろう。たとえば歴史上の人物の写真1枚から、その人物が質問に答えるインタラクティブ教材を作れる。語学学習では、ネイティブスピーカーとの会話練習相手にもなる。

正直に言うと、消費者向けの「おしゃべりアバター」はまだ物珍しさの域を出ない部分がある。だが企業のカスタマー接点を変える可能性は大きい。「電話は嫌だけどチャットボットは冷たい」という層に、ちょうどいい距離感のインターフェースを提供できるかもしれない。

料金はクレジット制、Webアプリでも体験可

APIはRunwayの開発者プラットフォーム(dev.runwayml.com)から利用できる。クレジット制で、1クレジット=$0.01(約1.5円)。Charactersの具体的なクレジット消費量は公開ドキュメントに明記されていないが、リアルタイム処理のためGen-4動画生成より高コストになる可能性はある。

エンタープライズ向けには専用プランが用意されており、SLA・SSO・ボリュームディスカウント付き。月額$500〜$3,000以上が相場とされる。

消費者向けには、Runway Webアプリ上でプリセットアバターとの対話を体験できる機能も提供されている。APIを触る前にまず試してみたい人にはこちらが手軽だ。

これが動画生成AIの次の形かもしれない

Runwayは動画生成のGen-4.5で技術的リーダーシップを保ちつつ、Builders Fund($10M)でスタートアップ支援にも動き出した。Charactersはその戦略の延長線上にある。「動画を作る」から「動画の中のキャラクターと対話する」への転換だ。

もしCharactersのレイテンシがさらに下がり、感情認識やマルチモーダル入力(ジェスチャー等)が加われば、リモート接客・オンライン教育・メンタルヘルスケアなど、対面でしか成立しなかった領域がAIで置き換わる余地が生まれる。技術的にはGWM-1の進化がその鍵を握るだろう。

動画生成AIが「見るもの」から「話すもの」になる。その転換点として、Charactersは覚えておく価値がある。


関連記事:

関連記事