170言語のPDFを1つのコンテナで読み取る — Mistral OCR 4が狙うドキュメントAIの本丸
OCRは枯れた技術だと思われがちだ。文字を読み取って、テキストにする。それだけの話——のはずだった。
ところが2026年のドキュメントAI市場は、LLMとRAGの急速な普及で一変している。企業が持つ膨大なPDF、Word、PowerPointを「AIが読める形」に変換するニーズが爆発し、単なる文字認識ではなく構造を理解した抽出が求められるようになった。
6月23日、フランスのAI企業Mistral AIがリリースしたMistral OCR 4は、まさにその需要のど真ん中を突いた製品だ。
何が従来のOCRと違うのか
Mistral OCR 4の最大の特徴は、テキストだけでなく座標(バウンディングボックス)、ブロック分類、信頼度スコアを同時に出力する点にある。
従来のOCRが「このページにはこんな文字列がありました」という平坦なテキストを返すのに対し、OCR 4は「ここは見出し、ここは表、ここは脚注。それぞれの座標はこの範囲で、抽出の確信度は92%」といった構造化されたデータを返す。
これが何に効くかというと、RAGパイプラインへの投入だ。LLMに文書を読ませるとき、元のどのページのどの位置から引用しているかを追跡できる。引用元の正確な特定——つまり「ハルシネーションかどうかの検証」が、OCRの段階で可能になる。
170言語、1つのコンテナ
対応言語は170。日本語、中国語、アラビア語を含む10の言語グループをカバーし、低リソース言語にも対応する。これは正直なところ、競合の多くが苦手とする領域だ。
受け付けるフォーマットはPDF、DOC、PPT、OpenDocumentと幅広い。そしてこれが重要なのだが、単一のDockerコンテナとしてセルフホストできる。クラウドAPIに書類を送りたくない企業——つまり大半のエンタープライズ——にとって、自社インフラ上で完結する選択肢があるのは決定的なアドバンテージだ。
料金 — 1,000ページあたり$4
API経由の料金は1,000ページあたり$4(約600円)。Batch APIを使えば50%割引で**$2/1,000ページ**(約300円)まで下がる。
月に数万ページの文書を処理するような企業ユースケースでも、コスト面で現実的な水準に収まっている。ただし、セルフホストの場合はインフラコスト(GPUサーバーの費用)が別途かかるため、処理量が少ない段階ではAPI利用の方が経済的だろう。
ベンチマーク — 勝率72%の内訳
Mistralの発表によると、独立したアノテーターによる評価で、OCR 4はすべての主要OCR・ドキュメントAIシステムに対して**平均勝率72%**を記録。OlmOCRBenchでのスコアは85.20で総合トップとなった。
数字として悪くない。ただし、OCRの精度は言語やドキュメントの種類によって大きく変わる。英語の活字PDFで高精度なのは当然として、手書き文字や日本語の縦書きレイアウトでどこまで正確に読めるかは、実際に試さないとわからない部分がある。
Search Toolkitとの連携 — RAGの入口を押さえる
OCR 4は単体の製品ではなく、Mistralが5月のAI Now Summitで発表したSearch Toolkitのインジェストコンポーネントとして位置づけられている。
Search Toolkitは、文書の取り込み(OCR 4)→インデキシング→検索→評価までを一貫して行うオープンソースの検索フレームワークだ。OCR 4が構造化データを吐き出し、それをRAGパイプラインに流す——という設計が最初から組み込まれている。
つまりMistralは、OCRを「文字を読む道具」ではなく「企業の知識をAIにつなぐ入口」として設計している。既存のChandra OCRやPaddleOCRが「精度」で勝負しているのに対し、Mistralはエコシステム全体で価値を出すアプローチを取っている。
正直な評価
強み:
構造化出力(座標+分類+信頼度)が標準装備されている点は他にない強さだ。セルフホストが単一コンテナで完結するのも、エンタープライズ導入のハードルを大きく下げている。170言語対応もグローバル企業には刺さる。
気になる点:
まだ実運用事例が少ない。勝率72%のベンチマークも、Mistralが選んだ評価セットでの結果であることは頭に入れておくべきだ。また、日本語OCRの品質については、手書きや複雑なレイアウト(表中の日本語など)の精度がどの程度か、公式に検証データが出ていない。
Google Document AI、AWS Textract、Azure AI Document Intelligenceといった大手クラウドの文書AIサービスと比べると、エコシステムの成熟度ではまだ差がある。プラグインやコネクタの豊富さでは大手に軍配が上がる場面が多いだろう。
RAG時代のOCRのあるべき姿
Mistral OCR 4が示しているのは、OCRが「文字を読む」から「知識をAIに接続する」ツールへと進化しているという事実だ。
構造化された出力を前提とした設計、RAGパイプラインへのネイティブ統合、セルフホストによるデータ主権の確保。いずれも2026年のエンタープライズAIが求めている要件であり、その点でMistralの方向性は正しいと感じる。
大量の社内文書を抱える企業で、RAGを本格的に導入しようとしているチームにとって、OCR 4は有力な選択肢になるはずだ。まずはAPIの無料枠で自社の文書を試し、日本語の精度を自分の目で確認するところから始めるのがいいだろう。
関連記事
RAGパイプラインの構築が面倒すぎる問題を、Mistralが1つのOSSで解決しにきた
Mistral Search ToolkitはRAGの取り込み・検索・評価を統合するOSSフレームワーク。LangChainとの違いと使い所を解説
手書きも表もPDFも、まとめてテキストに変換する無料AI — Chandra OCR 2の実力
Datalabが公開したオープンソースOCRモデルChandra OCR 2を紹介。olmOCRベンチマーク85.9%、4Bパラメータ、手書き・表・数式・90言語対応。Gemini 2.5 Flashを上回った理由と実用シーンを整理する。
会話・推論・画像理解・コーディングを1つのモデルに — Mistral Small 4 が実現した「統合MoE」の中身
Mistral Small 4は119B MoEで推論・画像・コードを統合。Apache 2.0で無料。使い所を解説。