FlowTune Media

Amazon Ringの電話を全部任されたAI — Vapiが音声エージェントの本命になるまで

Amazon Ringのカスタマーサポートに電話をかけると、応答するのはAIだ。しかも人間のオペレーターではなく、最初から最後までAIが対応する。この仕組みを支えているのがVapiという、日本ではまだほとんど知られていないスタートアップだ。

2026年5月、VapiはPeak XV Partners主導のシリーズBで5,000万ドル(約75億円)を調達し、評価額は5億ドル(約750億円)に達した。Microsoft M12、Kleiner Perkins、Bessemer Venture Partnersも出資している。

数字だけなら「また一つのAIスタートアップ」で終わる話だ。だがVapiが面白いのは、Amazon Ringが40社以上の音声AIベンダーを比較検討した末にVapiを選び、着信コールの100%をVapiに任せているという事実にある。

「聞いて、考えて、話す」を1つのループで

Vapiの仕組みは、音声AIの3つのレイヤーをリアルタイムで回すパイプラインだ。

音声認識(STT)で発話をテキスト化し、LLMで回答を生成し、音声合成(TTS)で読み上げる。この「listen → think → speak」のループを低遅延で回し続ける。文字にすると当たり前に聞こえるが、通話中にこれをリアルタイムで実行するのは技術的にかなり難しい。

Vapiが特に強いのは、構造化データの聞き取り精度だ。メールアドレス、住所、電話番号、口座番号といった情報を、早口や強いアクセントでも正確に聞き取れる。「え、もう一度お願いします」を繰り返すAI電話対応にうんざりした経験がある人は多いだろう。Vapiはその問題を解決しようとしている。

料金 — 安くはないが、人間より安い

Vapiの料金は従量課金制で、構造はやや複雑だ。

プラットフォーム利用料は1分あたり$0.05(約7.5円)。ただしこれはVapiの基盤使用料であり、実際にはSTT、LLM、TTSの各プロバイダーの費用が別途かかる。

実運用では1分あたり$0.15〜$0.33(約22〜50円)になるケースが多い。選ぶモデルやプロバイダーによって変動する。

新規ユーザーには$10の無料クレジットが付与されるので、40〜60分程度のテスト通話は無料で試せる。

人間のコールセンターオペレーターのコスト(1分あたり$1〜$2が相場)と比較すれば、10分の1以下。ただし、すべての通話をAIに任せられるわけではない。複雑な交渉や感情的な対応が必要なケースは、まだ人間に回す必要がある。

1日500万コール、累計10億コールの裏側

VapiはAmazon Ring以外にも、Intuit、New York Life、Kavak、Instaworkなど、大手企業で採用されている。1日あたり100万〜500万コールを処理し、累計では10億コールを突破した。

この規模で運用されているという事実自体が、プラットフォームの安定性の証明になっている。「デモは動くが本番では落ちる」というAIツールが多い中で、Vapiは本番環境での実績を積んでいる。

開発者にとっての使い勝手

Vapiは開発者向けのプラットフォームだ。ノーコードで始められる入口はあるが、本格的に使うにはAPIやWebhookの知識が必要になる。Twilioと連携して電話番号を設定し、エージェントの振る舞いをコードで定義する。

モデル非依存のアーキテクチャを採用しているため、STT・LLM・TTSの各レイヤーで好みのプロバイダーを選べる。OpenAIのWhisperとGPT-5を組み合わせてもいいし、DeepSeekとElevenLabsを組み合わせてもいい。この柔軟性は大きな利点だが、逆に「何を選べばいいかわからない」という初心者にはハードルになる。

正直、非エンジニアが一人でセットアップするのは難しい。開発チームがいる企業向けのツールだと考えた方がいい。

Grok Voice Think Fastとの違い

音声AIエージェントの分野では、xAIのGrok Voice Think Fast 1.0も最近APIをリリースした。両者の位置づけは異なる。

Grok Voiceは「モデル」だ。xAI自身が開発した音声モデルで、Starlink(SpaceX)の電話販売・サポートで実績がある。1分あたり$0.05で使える。

Vapiは「プラットフォーム」だ。STT・LLM・TTSを自由に組み合わせ、電話番号の管理やコールのルーティングまで含めたインフラを提供する。Grok Voice自体をVapiのパイプラインに組み込むことも理論上は可能だ。

単一のモデルに依存したくない企業にはVapi、xAIのエコシステムに乗りたい企業にはGrok Voiceという棲み分けになるだろう。

電話対応が消える日は近いのか

Vapiが示しているのは、「電話対応の自動化」がもう概念実証の段階を超えたということだ。Amazon Ringの着信を100%処理できるなら、中小企業の予約受付や問い合わせ対応は今すぐ自動化できる水準にある。

飲食店の予約、クリニックの受付、不動産の内覧予約。こうした定型的な電話業務は、Vapiのようなプラットフォームで月数万円の投資で自動化できる時代に入った。日本語対応についてはまだ発展途上だが、多言語対応を謳っているため、今後の対応拡充に期待したい。

ただし「AIが電話に出る」ことへの心理的な抵抗感は、日本市場では特に大きいだろう。技術的にはできても、受け入れられるかは別の話だ。Vapiの真の挑戦は、技術の精度ではなく、ユーザー体験の自然さにある。

関連記事