FlowTune Media

Cohere Transcribeが音声認識の王座を奪った — Whisperを超えたオープンソースASRモデルの実力と限界

Whisperの天下が、終わったかもしれない。

2022年にOpenAIがWhisperをリリースして以来、音声認識の世界はWhisper一強だった。オープンソースで、精度が高く、多言語対応。研究者も開発者もスタートアップも、こぞってWhisperを自社パイプラインに組み込んだ。「音声をテキストにするならWhisper」——それがここ数年の常識だった。

2026年3月26日、Cohereがその常識を書き換えた。

Cohere Transcribeは、HuggingFace Open ASR Leaderboardで1位を獲得した2Bパラメータの音声認識モデルだ。平均WER(Word Error Rate)は5.42%。Whisper Large v3の7.44%を約27%も上回り、ElevenLabs Scribe v2の5.83%すら下回る。しかもApache 2.0ライセンスで完全オープンソース。APIも無料で使える。

数字だけ見ると「ちょっと良くなっただけでしょ?」と思うかもしれない。でもWERの世界では、1ポイントの差が実務に大きく響く。5.42%と7.44%の差は、100語あたり約2語の誤認識が減ることを意味する。1時間の会議音声で考えれば、修正すべき箇所が数十カ所減る。議事録作成や字幕生成のワークフローにおいて、この差は無視できない。

アーキテクチャの話をしよう

Cohere Transcribeの内部構造は、最近のASRモデルの潮流を反映している。Fast-Conformerベースのエンコーダーにトランスフォーマーデコーダーを組み合わせたX-attention構造で、パラメータの90%以上がエンコーダーに集中している。デコーダーは軽量に抑えられており、これが推論速度の速さに直結している。

トークナイザーは16Kの多言語BPEで、バイトフォールバック付き。学習データは50万時間のキュレーション済み音声・テキストペアに加え、合成データによる拡張も行われている。SNR 0〜30dBのバックグラウンドノイズ増強で訓練されているため、ノイズ耐性にも期待できる。

注目すべきは効率性だ。同サイズ帯のASRモデルと比較して、オフラインスループットが約3倍。精度と速度のパレートフロンティアを拡張している、とCohere自身が主張しているが、VentureBeatの報道やベンチマーク結果を見る限り、これは誇張ではなさそうだ。2Bパラメータというサイズ感は、コンシューマーグレードのGPUでもローカル実行が現実的なラインにある。

日本語の精度はどうか

日本語を含む14言語に対応している。対応言語のフルリストは、英語、ドイツ語、フランス語、イタリア語、スペイン語、ポルトガル語、ギリシャ語、オランダ語、ポーランド語、アラビア語、ベトナム語、中国語(普通話)、日本語、韓国語だ。

英語での圧倒的な精度はベンチマークで証明されているが、日本語はどうか。Cohereの人間評価では、日本語は競合モデルに対して66〜70%の勝率を叩き出している。これはイタリア語の60%を上回り、全対応言語の中でもトップクラスの成績だ。ドイツ語(44%)やスペイン語(48%)、ポルトガル語(48%)では勝率が50%を下回る言語もある中で、日本語のパフォーマンスは突出している。

ただし、この評価はCohere自身が実施したものであり、独立した第三者ベンチマークでの検証はまだ限定的だ。実際の業務利用で「日本語の議事録がどこまで実用的か」は、もう少しコミュニティからのフィードバックを待ちたいところではある。

オープンソースの意味

Apache 2.0ライセンスという選択は、開発者にとって非常に大きい。

商用利用が完全に自由。モデルの改変・再配布も可能。自社サーバーでのオンプレミス運用も、エッジデバイスへのデプロイも制限なし。HuggingFaceからモデルをダウンロードして、transformers>=5.4.0で動かせる。

Whisperも同様にオープンソースだったからこそ爆発的に普及したわけで、Cohere Transcribeが同じ路線を取ったのは正しい判断だ。特に機密性の高い音声データ(医療、法務、金融)を扱う企業にとって、外部APIに音声を送らなくていいというのは決定的なメリットになる。

APIも用意されている。Cohereのダッシュボードから無料で利用可能で、レートリミットはあるがプロトタイピングや検証には十分だ。本番環境向けには、Model Vaultを通じた専用インスタンスのプロビジョニングも提供されている。推論スタックにはvLLMが使われており、可変長音声入力やFlashAttentionベースのデコーダーで最大2倍のスループット向上が謳われている。

正直に言う、制限は結構ある

ここからが重要だ。Cohere Transcribeは「Whisperの完全上位互換」ではない。

言語の自動検出に対応していない。 音声を投げるときに、言語タグを明示的に指定する必要がある。日英が混在する会議の音声を放り込んで自動で振り分けてくれる——ということはできない。モノリンガル音声を前提に設計されており、コードスイッチング(言語の混在)は明示的にはサポートされていない。

タイムスタンプ出力がない。 字幕生成のワークフローでは、「この発話がいつ始まっていつ終わったか」が必須になる。Whisperにはこの機能がある。Cohere Transcribeにはない。字幕用途を考えている人にとって、これは致命的な欠点だ。

話者分離(ダイアライゼーション)もない。 複数人が話す会議の音声を、「Aさんの発言」「Bさんの発言」と分けて書き起こすことはできない。議事録作成では話者分離はほぼ必須なので、別途pyannoteなどのダイアライゼーションモデルと組み合わせる必要がある。

非音声の幻覚問題。 Cohereのブログ自体が率直に認めているが、このモデルは「音声でないものまで文字起こししたがる」傾向がある。静かな環境ノイズやバックグラウンドの物音を、意味のあるテキストとして出力してしまうことがある。対策として、入力前にノイズゲートやVAD(音声活動検出)を挟むことが推奨されている。

これらの制限は、Cohere Transcribeが「純粋な音声→テキスト変換の精度」に全振りした設計であることを示している。一つのことを極めるアプローチとしては理にかなっているが、実務での利用には周辺ツールとの組み合わせが前提になる。

Whisperから乗り換えるべきか

結論から言うと、用途による。

英語の文字起こし精度を最優先するなら、Cohere Transcribeは現時点で最良の選択肢だ。WER 5.42%は伊達じゃない。日本語でも人間評価での勝率70%は魅力的で、精度面ではWhisperを超えている可能性が高い。

一方で、タイムスタンプ付き字幕生成、多言語自動検出、話者分離が必要なら、Whisperのエコシステムのほうがまだ成熟している。faster-whisper、whisper.cpp、WhisperXといった派生プロジェクトの蓄積は厚く、これらが提供する機能をCohere Transcribeの周辺ツールで代替するのは、現時点ではそれなりの手間がかかる。

筆者の見立てでは、Cohere Transcribeの真価が発揮されるのは「精度が最重要で、後処理パイプラインを自前で構築できるチーム」だ。医療カルテの音声入力、法廷記録、コールセンターのログ解析。こうした領域では、WERの2ポイント差が品質管理コストに直結する。

逆に、YouTubeの字幕を自動生成したい個人開発者には、Whisperのほうがまだ使いやすい。

今後の展開

Cohereは企業向けプラットフォーム「North」へのTranscribe統合を予告している。NorthはCohereのRAG、検索、生成AIを統合した企業向けプラットフォームで、ここにTranscribeが組み込まれれば、「音声入力→文字起こし→要約→検索インデックス化」という一気通貫のパイプラインが実現する。

また、Microsoft Azure AI FoundryにもCohere Transcribeが追加されており、エンタープライズでの採用が加速する兆しがある。

オープンソースASRの競争は、2026年に入って一気に激化した。Cohereに加えて、Qwen3-ASR-1.7BやMicrosoftのMAI-Transcribe-1も登場している。Whisperが切り拓いた道を、後発のモデルたちが次々と舗装し直している状況だ。

Cohere Transcribeは、その先頭を走っている。制限はあるが、2Bパラメータでこの精度、Apache 2.0でこのオープンさ、無料APIでこのアクセシビリティ。音声認識に関わる開発者なら、一度は手元で動かしてみる価値がある。

関連記事