Cohere Transcribeが音声認識の王座を奪った — Whisperを超えたオープンソースASRモデルの実力と限界
Whisperの天下が、終わったかもしれない。
2022年にOpenAIがWhisperをリリースして以来、音声認識の世界はWhisper一強だった。オープンソースで、精度が高く、多言語対応。研究者も開発者もスタートアップも、こぞってWhisperを自社パイプラインに組み込んだ。「音声をテキストにするならWhisper」——それがここ数年の常識だった。
2026年3月26日、Cohereがその常識を書き換えた。
Cohere Transcribeは、HuggingFace Open ASR Leaderboardで1位を獲得した2Bパラメータの音声認識モデルだ。平均WER(Word Error Rate)は5.42%。Whisper Large v3の7.44%を約27%も上回り、ElevenLabs Scribe v2の5.83%すら下回る。しかもApache 2.0ライセンスで完全オープンソース。APIも無料で使える。
数字だけ見ると「ちょっと良くなっただけでしょ?」と思うかもしれない。でもWERの世界では、1ポイントの差が実務に大きく響く。5.42%と7.44%の差は、100語あたり約2語の誤認識が減ることを意味する。1時間の会議音声で考えれば、修正すべき箇所が数十カ所減る。議事録作成や字幕生成のワークフローにおいて、この差は無視できない。
アーキテクチャの話をしよう
Cohere Transcribeの内部構造は、最近のASRモデルの潮流を反映している。Fast-Conformerベースのエンコーダーにトランスフォーマーデコーダーを組み合わせたX-attention構造で、パラメータの90%以上がエンコーダーに集中している。デコーダーは軽量に抑えられており、これが推論速度の速さに直結している。
トークナイザーは16Kの多言語BPEで、バイトフォールバック付き。学習データは50万時間のキュレーション済み音声・テキストペアに加え、合成データによる拡張も行われている。SNR 0〜30dBのバックグラウンドノイズ増強で訓練されているため、ノイズ耐性にも期待できる。
注目すべきは効率性だ。同サイズ帯のASRモデルと比較して、オフラインスループットが約3倍。精度と速度のパレートフロンティアを拡張している、とCohere自身が主張しているが、VentureBeatの報道やベンチマーク結果を見る限り、これは誇張ではなさそうだ。2Bパラメータというサイズ感は、コンシューマーグレードのGPUでもローカル実行が現実的なラインにある。
日本語の精度はどうか
日本語を含む14言語に対応している。対応言語のフルリストは、英語、ドイツ語、フランス語、イタリア語、スペイン語、ポルトガル語、ギリシャ語、オランダ語、ポーランド語、アラビア語、ベトナム語、中国語(普通話)、日本語、韓国語だ。
英語での圧倒的な精度はベンチマークで証明されているが、日本語はどうか。Cohereの人間評価では、日本語は競合モデルに対して66〜70%の勝率を叩き出している。これはイタリア語の60%を上回り、全対応言語の中でもトップクラスの成績だ。ドイツ語(44%)やスペイン語(48%)、ポルトガル語(48%)では勝率が50%を下回る言語もある中で、日本語のパフォーマンスは突出している。
ただし、この評価はCohere自身が実施したものであり、独立した第三者ベンチマークでの検証はまだ限定的だ。実際の業務利用で「日本語の議事録がどこまで実用的か」は、もう少しコミュニティからのフィードバックを待ちたいところではある。
オープンソースの意味
Apache 2.0ライセンスという選択は、開発者にとって非常に大きい。
商用利用が完全に自由。モデルの改変・再配布も可能。自社サーバーでのオンプレミス運用も、エッジデバイスへのデプロイも制限なし。HuggingFaceからモデルをダウンロードして、transformers>=5.4.0で動かせる。
Whisperも同様にオープンソースだったからこそ爆発的に普及したわけで、Cohere Transcribeが同じ路線を取ったのは正しい判断だ。特に機密性の高い音声データ(医療、法務、金融)を扱う企業にとって、外部APIに音声を送らなくていいというのは決定的なメリットになる。
APIも用意されている。Cohereのダッシュボードから無料で利用可能で、レートリミットはあるがプロトタイピングや検証には十分だ。本番環境向けには、Model Vaultを通じた専用インスタンスのプロビジョニングも提供されている。推論スタックにはvLLMが使われており、可変長音声入力やFlashAttentionベースのデコーダーで最大2倍のスループット向上が謳われている。
正直に言う、制限は結構ある
ここからが重要だ。Cohere Transcribeは「Whisperの完全上位互換」ではない。
言語の自動検出に対応していない。 音声を投げるときに、言語タグを明示的に指定する必要がある。日英が混在する会議の音声を放り込んで自動で振り分けてくれる——ということはできない。モノリンガル音声を前提に設計されており、コードスイッチング(言語の混在)は明示的にはサポートされていない。
タイムスタンプ出力がない。 字幕生成のワークフローでは、「この発話がいつ始まっていつ終わったか」が必須になる。Whisperにはこの機能がある。Cohere Transcribeにはない。字幕用途を考えている人にとって、これは致命的な欠点だ。
話者分離(ダイアライゼーション)もない。 複数人が話す会議の音声を、「Aさんの発言」「Bさんの発言」と分けて書き起こすことはできない。議事録作成では話者分離はほぼ必須なので、別途pyannoteなどのダイアライゼーションモデルと組み合わせる必要がある。
非音声の幻覚問題。 Cohereのブログ自体が率直に認めているが、このモデルは「音声でないものまで文字起こししたがる」傾向がある。静かな環境ノイズやバックグラウンドの物音を、意味のあるテキストとして出力してしまうことがある。対策として、入力前にノイズゲートやVAD(音声活動検出)を挟むことが推奨されている。
これらの制限は、Cohere Transcribeが「純粋な音声→テキスト変換の精度」に全振りした設計であることを示している。一つのことを極めるアプローチとしては理にかなっているが、実務での利用には周辺ツールとの組み合わせが前提になる。
Whisperから乗り換えるべきか
結論から言うと、用途による。
英語の文字起こし精度を最優先するなら、Cohere Transcribeは現時点で最良の選択肢だ。WER 5.42%は伊達じゃない。日本語でも人間評価での勝率70%は魅力的で、精度面ではWhisperを超えている可能性が高い。
一方で、タイムスタンプ付き字幕生成、多言語自動検出、話者分離が必要なら、Whisperのエコシステムのほうがまだ成熟している。faster-whisper、whisper.cpp、WhisperXといった派生プロジェクトの蓄積は厚く、これらが提供する機能をCohere Transcribeの周辺ツールで代替するのは、現時点ではそれなりの手間がかかる。
筆者の見立てでは、Cohere Transcribeの真価が発揮されるのは「精度が最重要で、後処理パイプラインを自前で構築できるチーム」だ。医療カルテの音声入力、法廷記録、コールセンターのログ解析。こうした領域では、WERの2ポイント差が品質管理コストに直結する。
逆に、YouTubeの字幕を自動生成したい個人開発者には、Whisperのほうがまだ使いやすい。
今後の展開
Cohereは企業向けプラットフォーム「North」へのTranscribe統合を予告している。NorthはCohereのRAG、検索、生成AIを統合した企業向けプラットフォームで、ここにTranscribeが組み込まれれば、「音声入力→文字起こし→要約→検索インデックス化」という一気通貫のパイプラインが実現する。
また、Microsoft Azure AI FoundryにもCohere Transcribeが追加されており、エンタープライズでの採用が加速する兆しがある。
オープンソースASRの競争は、2026年に入って一気に激化した。Cohereに加えて、Qwen3-ASR-1.7BやMicrosoftのMAI-Transcribe-1も登場している。Whisperが切り拓いた道を、後発のモデルたちが次々と舗装し直している状況だ。
Cohere Transcribeは、その先頭を走っている。制限はあるが、2Bパラメータでこの精度、Apache 2.0でこのオープンさ、無料APIでこのアクセシビリティ。音声認識に関わる開発者なら、一度は手元で動かしてみる価値がある。
関連記事
Voxtral Transcribe 2 — Mistralの音声認識が「安い・速い・オープン」の三拍子でWhisperを超えてきた
MistralのVoxtral Transcribe 2を競合と徹底比較。話者分離・リアルタイム処理・オープンウェイトの3拍子でWhisperを超えた音声認識の実力と注意点を解説。
Google AI Edge Gallery — スマホでGemma 4をオフライン実行する時代が来た
Google AI Edge GalleryでGemma 4をスマホ完全オフライン実行した実機レビュー。AIチャット・画像質問・音声書き起こし・Agent Skillsの4機能、動作環境、プライバシーの強みと課題を解説
Mastra — Gatsbyチームが作ったTypeScript AIエージェントフレームワークは本物か
Gatsbyチーム発のTypeScript AIエージェントフレームワークMastraを実際に触ってレビュー。LangChain.jsやVercel AI SDKとの違いがわかる