Chandra OCR 2 — Gemini 2.5 Flashの精度を越えたOSSのOCR、手書きも表もまとめて片付ける
OCRというジャンルは長いあいだ、「そこそこ動くもの」と「全然動かないもの」の2択だった。特に日本語の手書きや、表が混在した帳票、数式付きの論文PDFになると、既存のクラウドOCRでも誤認識が山盛りで、結局人間が手で直すのが当たり前だった。
2026年3月末、その状況を静かにひっくり返す可能性のあるOSSモデルが出てきた。Datalab が公開した Chandra OCR 2。4Bパラメータの小型モデルにもかかわらず、olmOCRベンチマークで 85.9% という業界最高水準のスコアを叩き出し、表・手書き・数式・チェックボックスをまとめて処理する。無料。Apache 2.0ライセンスでローカルでも回せる。
4Bパラメータで9B世代を超えたという事実
Chandra OCR 2で最初に目を引くのは、モデルサイズの削減だ。前世代のv1は9Bパラメータだった。v2は 4B に半減している。普通に考えれば性能も落ちるはずだが、実際には スコアが大きく跳ねた。
内訳を見るとその凄さがわかる。olmOCRベンチマークの項目別で、表の認識が 89.9%、数式が 89.3%、ヘッダー・フッターの分離が 92.5%。どれも従来のOCRが苦手としていたカテゴリだ。90言語対応の総合評価では、Gemini 2.5 Flash が60.8%だったのに対し、Chandra 2 は 72.7% を記録している。クラウドの有料モデルを、ローカルで走るOSSが引き離している。
モデルサイズの縮小は、運用コストにもダイレクトに効く。vLLMと NVIDIA H100 80GB 1枚で問題なく動く。RTX 4090レベルでも量子化すれば実用的な速度で回せる可能性が高い。つまり 会社のちょっと強めのワークステーションでも動かせる規模になった。
何が書き出されるのか
入力は画像やPDFで、出力はMarkdown・HTML・JSON のいずれか。この「出力形式を選べる」という点が、地味だが実務的に効いてくる。
Markdownで吐き出せば、そのままLLMに投げて要約や検索インデックスに回せる。HTMLなら元のレイアウトをある程度保ったまま表示できる。JSONならフィールド単位で構造化して業務システムに流し込める。既存のOCRは「テキストを全部ベタっと返す」ものが多かったのに対し、Chandra 2は ドキュメントの構造そのものを解釈したうえで、用途に合わせた粒度に整形してくる。
特に評価が高いのが表の処理だ。セルの結合、ヘッダー行の判定、複雑な入れ子構造まで、そのままMarkdownテーブルとして再現される。請求書、財務諸表、学術論文の表組みまで、人間が後からExcelに貼り直さなくて済むレベルで綺麗に出てくる。
もうひとつ、手書き対応の精度も上がっている。海外のテックブログでは、ラマヌジャンが1913年に書いた直筆書簡をChandra 2に食わせる検証が行われていて、数式混じりの癖のある筆跡を高い精度で読み解いている。日本語の手書き、特にビジネス文書レベルの楷書であれば、かなり期待して良さそうだ。
これで何ができるのか — 現実的な用途
機能を並べるだけだとOSSモデルの紹介で終わる。具体的にどんな業務が置き換わりうるかを考えたい。
経理の受領書・請求書処理。ここが一番短期的に効きそう。メールで届くPDF請求書をChandra 2に通して、取引先名・金額・支払期日を構造化JSONで吐かせ、そのまま会計システムに流し込む。マネーフォワードやfreeeが既に似たことをクラウドでやっているが、オンプレで回せることが大手企業には意味を持つ。
契約書レビューの前処理。PDFの契約書をLLMに投げたいが、画像ベースのスキャンだとそのままでは読めない——という場面は弁護士・法務の現場で頻発する。Chandra 2で正確にテキスト化してから、ClaudeやGPT-5.4に要約・リスク抽出を頼む流れが組める。
学術論文・技術書の検索インデックス。数式を含むPDFをテキスト検索できるようにしたいニーズは根強い。従来のOCRは数式を誤変換したり、画像として扱って検索漏れさせたりしていた。Chandra 2の数式89.3%スコアは、この領域の体験を変える可能性がある。arXivレベルの論文アーカイブを自分のMacでインデックス化できる、と言えば伝わる人には伝わる。
手書きメモのデジタル化。これは個人向けの話だが、ノートやホワイトボードの写真を撮ってChandra 2に食わせれば、Markdownで戻してくれる。NotebookLM や Granola に食わせる前段の変換器として、ローカルで走ることが価値になる。クラウドに機密メモを送りたくない人にとっては、これ以上ないピースだ。
帳票系業務の完全オンプレ化。金融機関・医療機関のように、クラウドOCR(Google Document AI や Azure AI Document Intelligence)に書類を送れない業界がある。そこに Chandra 2 が入り込める。クラウドOCRの精度にようやく並んだOSSが、ようやく選択肢に挙がる状況になった——というのが現在地だ。
正直に言うと、まだ残る難点
手放しで褒めたくなるモデルだが、実務導入の前にはいくつか釘を刺しておきたい。
第一に、GPUインフラの準備。H100 1枚で動くと言っても、日本のスタートアップや中小企業でH100を自前で用意できる環境は限られる。クラウドGPU(A100 40GBあたり)でも動くが、量産運用すると料金はそれなりに積み上がる。「ローカルで動く」という言葉を額面通り受け取ると、RTX 3060くらいのPCで想像してしまって現実と乖離する。
第二に、日本語固有の評価はまだ少ない。90言語対応の中に日本語も含まれてはいるが、olmOCRベンチマーク自体は英語中心の評価セットだ。日本語の縦書き、複雑なルビ、フォントの崩し方に対しての実測は、まだ海外ブログでもほぼ報告がない。日本企業が本番投入する前には、自社の帳票セットで必ずベンチを取ったほうがいい。
第三に、4Bとはいえ推論は遅い。リアルタイム応答を期待するアプリケーションには向かない。非同期バッチ処理(夜間に1日分の書類をまとめて処理、など)前提で使うべきモデルだ。
第四に、デプロイ形態がまだ成熟していない。Datalab は GitHub で chandra-ocr パッケージを公開しているが、DockerイメージやHelm Chartのような「即投入できる」パッケージはまだ乏しい。MLOpsチームが自分で vLLM + FastAPI あたりの皮を被せて運用する必要がある。
Datalabという会社
Chandra 2を出している Datalab は、もともと marker というPDF→Markdown変換のOSSツールで名前が知られていた。2025年ごろから論文PDFの要約・検索用途でLLMコミュニティ内で人気を集めて、そのノウハウをOCRモデル本体に押し込んできた格好だ。
資金調達の派手なニュースはないが、学術系・ドキュメント処理系のニッチで着実にファンを増やしているチームという印象がある。OSSで公開しているのもその文化の延長線上にあって、クラウドで売るというよりも、ハグフェイスやGitHubで無償公開してから大企業が問い合わせてくる、というタイプの広がり方をしている。
筆者の見立てとしては、Chandra 2は 2026年後半から2027年にかけて、日本のエンタープライズ帳票処理の本命オプションのひとつになりうる。クラウドOCRの品質を、ローカルで、無償で、Apache 2.0で受け取れる。この条件が揃うのは、OCR史上で初めてに近い。
試すのは簡単だ。Python環境で pip install chandra-ocr して、GPUを繋いで動かす。モデルは Hugging Face の datalab-to/chandra-ocr-2 から自動で落ちてくる。ファーストインプレッションを得るだけなら、Google Colabの無料枠でも触れる範囲だ。
関連記事
Qwen3.5にClaude Opus 4.6の思考を「移植」した27Bモデルが静かに首位を取った話
Jackrongが公開したQwen3.5-27B Claude-4.6-Opus-Reasoning-Distilledが、Hugging Face Trending1位に。Apache-2.0ライセンスでClaude風の<think>推論をローカル再現。v1/v2の違いとMLX/GGUF展開を整理する。
眠っているGPUを束ねて大きなモデルを動かす — Blockのmesh-llmが示す「分散ローカル推論」の現在地
Jack Dorsey率いるBlockのエンジニアが公開したOSSプロジェクトmesh-llmを解説。家のPCやMacのGPUをピアツーピアで束ね、単独では動かせない大規模モデルを分散実行する仕組みと使い所。
訓練の50%を自分でこなすAI — MiniMax M2.7「自己進化」モデルの衝撃
MiniMax M2.7は自身の訓練の30-50%を自律実行する「自己進化」型AI。10Bアクティブパラメータで業界トップ性能、価格は1/50。技術と意味を解説