話すだけでSlackもメールも整う — AI音声入力「Wispr Flow」が全プラットフォームに揃った

一日にどれくらいタイピングしているか、意識したことがあるだろうか。
メールを書く。Slackに返事をする。ドキュメントを整理する。議事録をまとめる。コードのコメントを書く。これらの時間を積み上げると、知識労働者のかなりの部分が「キーボードを叩く作業」に費やされている。
Wispr Flowは、そのタイピングを「話す」に置き換えるAI音声入力ツールだ。Mac、Windows、iOS、Androidの全プラットフォームに対応。100言語以上をサポートし、累計$80M以上の資金を調達している。2026年2月のAndroid版リリースで、主要プラットフォームが出揃った。
ただの音声入力ではない。話した言葉をそのまま文字にするのではなく、アプリの文脈に合わせてAIが整形するのが特徴だ。
「文脈を読む」音声入力
従来の音声入力との最大の違いは、出力先のアプリを見ているという点にある。
同じ内容を話しても、Slackに書くときはカジュアルなトーンで出力され、Gmailに書くときは丁寧なビジネスメールの形に整形される。ドキュメントに書くときは見出しと段落が付く。アプリごとに自分でトーンを切り替える必要がない。
音声認識の処理は複数のAIレイヤーで同時に走る。最初のレイヤーが音声をテキストに変換し、次のレイヤーが「えーと」「あの」などのフィラーワードを除去し、さらに別のレイヤーがインテリジェントな句読点やフォーマットを適用する。言い直しや脱線も自動で整理される。
Command Modeも面白い。テキストを選択して「これをもっとカジュアルにして」「箇条書きにまとめて」「フランス語に翻訳して」と話すと、AIが選択範囲を書き換える。音声版の「AIリライト」だ。
精度はどの程度か
音声入力で一番気になるのは精度だろう。環境別の実測値が出ている。
| 環境 | 精度 |
|---|---|
| 静かな部屋 + 外付けマイク | 96〜97% |
| ノートPC内蔵マイク | 93〜95% |
| iPhone + イヤホン | 約92% |
| 騒がしい環境 | 約88% |
静かな環境でまともなマイクを使えば、ほぼストレスなく使える精度だ。ただし、カフェや共有オフィスでの利用は期待しない方がいい。周囲の雑音が入ると精度が目に見えて落ちる。
日本語対応は100言語のサポートに含まれるが、英語ほどの精度は期待しにくい。音声認識AI全般に言えることだが、日本語の同音異義語の多さは依然として課題だ。
料金
| プラン | 料金 | 内容 |
|---|---|---|
| Basic | 無料 | 週2,000語まで。基本機能のみ |
| Pro | $15/月(約2,250円) | 無制限、Command Mode、全AI機能 |
14日間のPro無料トライアルあり。トライアル終了後は自動でBasicに戻るので、知らないうちに課金される心配はない。
$15/月は音声入力ツールとしては高めに見える。ただ、毎日大量のテキストを書く人にとっては、タイピング時間の短縮分で十分にペイする可能性がある。「タイピングの4倍速」は公式の謳い文句だが、実際には2〜3倍速程度が現実的なラインだろう。それでも、1日1時間タイピングしている人なら20〜30分の節約になる計算だ。
気になるところ
完全クラウド依存。 オフラインでは一切動作しない。飛行機の中や通信が不安定な場所では使えない。音声データをクラウドに送信する仕組み上、機密性の高い内容をディクテーションする際にはポリシー的にNGな組織もあるだろう。
リソース消費。 メモリ約800MB、CPU約8%を常時消費する。古いマシンでは体感できるレベルの負荷になる可能性がある。起動にも8〜10秒かかる。
「話す」こと自体のハードル。 オフィスで声を出して入力するのは、日本の職場文化では抵抗がある。リモートワークや個室環境が前提になる。
音声入力は「補助」から「メイン」になるか
Wispr Flowは、音声入力の精度と使い勝手をかなりのレベルまで引き上げた。特に英語圏のユーザーにとっては、日常のテキスト入力を音声に切り替える実用的な選択肢になっている。
ただし、現時点では「キーボードの完全な代替」ではなく「キーボードと併用する高速入力手段」という位置づけが正確だ。長文のメールやドキュメントは音声で下書きし、細かい修正はキーボードで——という使い方が最も現実的だろう。
それでも、テキスト入力の方法に「話す」が本格的に加わったのは確かだ。全プラットフォーム対応が完了した今、音声入力の敷居はこれまでで最も低くなっている。
関連記事
PDFを放り込むだけでフラッシュカードが完成する — 1300万人が使う学習AI「Gizmo」の正体
1300万ユーザー・120カ国で使われるAI学習アプリGizmoを解説。PDF→フラッシュカード自動生成の仕組み、料金、Anki・Quizletとの違いを整理する。
ElevenLabs Eleven v3 — 「ため息をついて」「ささやいて」が通じるAI音声の現在地
ElevenLabs Eleven v3の機能・Audio Tags・料金・日本語性能を解説。感情表現できるTTSモデルの実力と、v2.5との使い分けを整理する。
コールセンターの電話を全部AIが取る時代に最も近い会社 — Retell AIが月5,000万コールまで伸びた理由
Retell AIは音声・チャット・メール・SMS対応のAIコールセンタープラットフォーム。$50M ARR、月5,000万コール、料金体系、Klariqoとの違いを整理する。