Google翻訳が「同時通訳」になった — Gemini 3.5 Live Translateの実力と限界

海外のカフェで現地語のメニューを前に固まる。翻訳アプリを開いて、相手が話し終わるのを待って、ボタンを押して、数秒待つ。その間に店員は次の客に目を移している。

この「待つ」が、なくなった。

2026年6月9日、GoogleがGemini 3.5 Live Translateをリリースした。70言語以上に対応するリアルタイム音声翻訳モデルで、Google翻訳アプリ、Google Meet、Gemini Live APIの3つで同時に展開されている。

これまでの音声翻訳は「交互通訳」だった。相手が話し終わるのを待ち、翻訳結果を再生する。Live Translateは違う。相手が話している最中に、ほぼ同時に翻訳された音声が流れる。国際会議の同時通訳ブースと同じ原理だ。

従来の翻訳AIと何が違うのか

技術的なポイントは3つある。

1. 連続処理。 従来のシステムは発話の終了を検知してから翻訳を開始する。Live Translateは音声ストリームを受け取りながら翻訳を生成し続ける。「文脈を待つか、すぐ訳すか」のバランスを自動で調整し、数秒の遅延で訳が追いかけてくる。

2. 声の保存。 翻訳後の音声が、元の話者のイントネーション、ペース、ピッチを反映する。機械音声にありがちな平坦さがかなり抑えられている。怒っている人の翻訳は怒った声で出てくるし、ささやきはささやきで返る。SynthIDという電子透かしがすべての生成音声に付与され、AI生成であることが検出可能になっている点も見逃せない。

3. 自動言語検出。 70言語以上を手動設定なしで検出する。英語からフランス語に切り替わっても、中国語が混ざっても、設定画面を触る必要がない。2,000以上の言語ペアの組み合わせに対応している。

正直、「声のトーンを保つ」という部分は実際に聞いてみるとかなり驚く。従来の翻訳音声がラジオ体操のかけ声だとしたら、Live Translateは少なくとも吹き替え映画くらいの自然さはある。

どこで使えるか

展開先は3つ。それぞれ性質が違う。

Google翻訳アプリ（Android / iOS） — 一般ユーザー向け。無料で利用可能。ヘッドフォンを接続すると、翻訳された音声が直接聞こえる。Androidでは「リスニングモード」が追加され、電話のようにスマホを耳に当てるだけで翻訳音声を聞ける。旅行者にとってはこれが一番の実用ポイントだろう。

Google Meet — 法人向けプライベートプレビュー。2026年6月からGoogle Workspaceの一部企業ユーザーに提供開始。従来は英語しか対応していなかった会議翻訳が、70言語以上に拡大する。多国籍チームのミーティングが根本的に変わる可能性がある。ただし一般提供は2026年後半の予定。

Gemini Live API / Google AI Studio — 開発者向けパブリックプレビュー。16kHz PCM音声を入力すると、ターゲット言語に翻訳された24kHz音声とオプションのトランスクリプトが返る。自社アプリに同時通訳機能を組み込みたい開発者にとっては待望のAPIだ。

DeepLやVoicePingとの違い

リアルタイム翻訳ツールは他にもある。どう使い分けるか。

DeepLは文書翻訳において依然として最高精度を誇る。2026年のベンチマークでは英独のBLEUスコアが64.5と、Google翻訳の48.3を大きく上回る。ただし、DeepLの音声翻訳はまだ対応言語が限られており、リアルタイムの「同時通訳」には対応していない。テキストベースの正確な翻訳はDeepL、リアルタイム音声はLive Translateという棲み分けになりそうだ。

VoicePingはリアルタイム音声翻訳と会議文字起こしを組み合わせたツールで、日本企業の多言語会議に強い。ただし対応言語は英語・中国語・韓国語・ベトナム語が中心で、70言語以上というLive Translateのカバレッジには及ばない。

Google翻訳アプリ内で無料で使えるという参入障壁の低さが、Live Translateの最大の武器だ。

気になる制約

万能ではない。

騒がしい環境への耐性はあると謳われているが、複数人が同時に話す場面ではまだ精度が落ちる。国際会議の質疑応答のように、明確なターンテイキングがある場面では力を発揮するが、居酒屋の多人数会話には向かない。

翻訳の「数秒の遅延」は、カジュアルな会話では気にならないものの、商談やプレゼンでは微妙なタイムラグが気になる場面もある。人間の同時通訳者のようにニュアンスを汲み取って意訳するところまでは達していない。

また、Google Meet連携が法人プレビューにとどまっている点は残念だ。個人ユーザーがGoogle Meetで使うには、一般提供を待つ必要がある。

何が変わるか

それでも、この技術のインパクトは大きい。

Google翻訳の月間アクティブユーザーは数億人規模だ。そのアプリに同時通訳機能が無料で載った。外国語を話せない人が海外旅行でリアルタイムに会話できるようになるという体験は、単なるアプリのアップデートではなく、行動様式そのものを変える可能性がある。

開発者にとっては、Gemini Live APIを通じて自社サービスに同時通訳を組み込めるようになったことが大きい。たとえばカスタマーサポートのチャットボットに音声翻訳を統合すれば、英語対応しかなかったサービスが一夜にして70言語対応になる。コールセンターの多言語対応コストは劇的に下がるだろう。

さらに現実的な話として、Google Meetでこの機能が一般提供されれば、社内会議での「英語ができる人に通訳を頼む」という属人的な運用がなくなる。通訳コストがゼロになるだけでなく、「英語ができないから会議に出ない」という機会損失もなくなる。

同時通訳が誰でも無料で使える時代は、もう始まっている。問題は精度が完璧かどうかではなく、「十分実用的かどうか」だ。そして正直なところ、大半の日常的な場面では、もう十分だと思う。

Google翻訳が「同時通訳」になった — Gemini 3.5 Live Translateの実力と限界

従来の翻訳AIと何が違うのか

どこで使えるか

DeepLやVoicePingとの違い

気になる制約

何が変わるか

関連記事

Sundar Pichaiが「来月には」と言ったあのモデル — Gemini 3.5 Proが6月に来る

Google検索から「青いリンク」が消えた — 28年間続いた検索結果の終わり方

スマホの動画が10秒で「映画の一場面」になる — Google Photos Video Remixが日本上陸