手書きも表もPDFも、まとめてテキストに変換する無料AI — Chandra OCR 2の実力

OCRというジャンルは長いあいだ、「そこそこ動くもの」と「全然動かないもの」の2択だった。特に日本語の手書きや、表が混在した帳票、数式付きの論文PDFになると、既存のクラウドOCRでも誤認識が山盛りで、結局人間が手で直すのが当たり前だった。

Chandra OCR 2

2026年3月末、その状況を静かにひっくり返す可能性のあるOSSモデルが出てきた。Datalab が公開した Chandra OCR 2。4Bパラメータの小型モデルにもかかわらず、olmOCRベンチマークで 85.9% という業界最高水準のスコアを叩き出し、表・手書き・数式・チェックボックスをまとめて処理する。無料。Apache 2.0ライセンスでローカルでも回せる。

4Bパラメータで9B世代を超えたという事実

Chandra OCR 2で最初に目を引くのは、モデルサイズの削減だ。前世代のv1は9Bパラメータだった。v2は 4B に半減している。普通に考えれば性能も落ちるはずだが、実際には スコアが大きく跳ねた。

内訳を見るとその凄さがわかる。olmOCRベンチマークの項目別で、表の認識が 89.9%、数式が 89.3%、ヘッダー・フッターの分離が 92.5%。どれも従来のOCRが苦手としていたカテゴリだ。90言語対応の総合評価では、Gemini 2.5 Flash が60.8%だったのに対し、Chandra 2 は 72.7% を記録している。クラウドの有料モデルを、ローカルで走るOSSが引き離している。

モデルサイズの縮小は、運用コストにもダイレクトに効く。vLLMと NVIDIA H100 80GB 1枚で問題なく動く。RTX 4090レベルでも量子化すれば実用的な速度で回せる可能性が高い。つまり 会社のちょっと強めのワークステーションでも動かせる規模になった。

何が書き出されるのか

入力は画像やPDFで、出力はMarkdown・HTML・JSON のいずれか。この「出力形式を選べる」という点が、地味だが実務的に効いてくる。

Markdownで吐き出せば、そのままLLMに投げて要約や検索インデックスに回せる。HTMLなら元のレイアウトをある程度保ったまま表示できる。JSONならフィールド単位で構造化して業務システムに流し込める。既存のOCRは「テキストを全部ベタっと返す」ものが多かったのに対し、Chandra 2は ドキュメントの構造そのものを解釈したうえで、用途に合わせた粒度に整形してくる。

特に評価が高いのが表の処理だ。セルの結合、ヘッダー行の判定、複雑な入れ子構造まで、そのままMarkdownテーブルとして再現される。請求書、財務諸表、学術論文の表組みまで、人間が後からExcelに貼り直さなくて済むレベルで綺麗に出てくる。

もうひとつ、手書き対応の精度も上がっている。海外のテックブログでは、ラマヌジャンが1913年に書いた直筆書簡をChandra 2に食わせる検証が行われていて、数式混じりの癖のある筆跡を高い精度で読み解いている。日本語の手書き、特にビジネス文書レベルの楷書であれば、かなり期待して良さそうだ。

これで何ができるのか — 現実的な用途

機能を並べるだけだとOSSモデルの紹介で終わる。具体的にどんな業務が置き換わりうるかを考えたい。

経理の受領書・請求書処理。ここが一番短期的に効きそう。メールで届くPDF請求書をChandra 2に通して、取引先名・金額・支払期日を構造化JSONで吐かせ、そのまま会計システムに流し込む。マネーフォワードやfreeeが既に似たことをクラウドでやっているが、オンプレで回せることが大手企業には意味を持つ。

契約書レビューの前処理。PDFの契約書をLLMに投げたいが、画像ベースのスキャンだとそのままでは読めない——という場面は弁護士・法務の現場で頻発する。Chandra 2で正確にテキスト化してから、ClaudeやGPT-5.4に要約・リスク抽出を頼む流れが組める。

学術論文・技術書の検索インデックス。数式を含むPDFをテキスト検索できるようにしたいニーズは根強い。従来のOCRは数式を誤変換したり、画像として扱って検索漏れさせたりしていた。Chandra 2の数式89.3%スコアは、この領域の体験を変える可能性がある。arXivレベルの論文アーカイブを自分のMacでインデックス化できる、と言えば伝わる人には伝わる。

手書きメモのデジタル化。これは個人向けの話だが、ノートやホワイトボードの写真を撮ってChandra 2に食わせれば、Markdownで戻してくれる。NotebookLM や Granola に食わせる前段の変換器として、ローカルで走ることが価値になる。クラウドに機密メモを送りたくない人にとっては、これ以上ないピースだ。

帳票系業務の完全オンプレ化。金融機関・医療機関のように、クラウドOCR（Google Document AI や Azure AI Document Intelligence）に書類を送れない業界がある。そこに Chandra 2 が入り込める。クラウドOCRの精度にようやく並んだOSSが、ようやく選択肢に挙がる状況になった——というのが現在地だ。

正直に言うと、まだ残る難点

手放しで褒めたくなるモデルだが、実務導入の前にはいくつか釘を刺しておきたい。

第一に、GPUインフラの準備。H100 1枚で動くと言っても、日本のスタートアップや中小企業でH100を自前で用意できる環境は限られる。クラウドGPU（A100 40GBあたり）でも動くが、量産運用すると料金はそれなりに積み上がる。「ローカルで動く」という言葉を額面通り受け取ると、RTX 3060くらいのPCで想像してしまって現実と乖離する。

第二に、日本語固有の評価はまだ少ない。90言語対応の中に日本語も含まれてはいるが、olmOCRベンチマーク自体は英語中心の評価セットだ。日本語の縦書き、複雑なルビ、フォントの崩し方に対しての実測は、まだ海外ブログでもほぼ報告がない。日本企業が本番投入する前には、自社の帳票セットで必ずベンチを取ったほうがいい。

第三に、4Bとはいえ推論は遅い。リアルタイム応答を期待するアプリケーションには向かない。非同期バッチ処理（夜間に1日分の書類をまとめて処理、など）前提で使うべきモデルだ。

第四に、デプロイ形態がまだ成熟していない。Datalab は GitHub で chandra-ocr パッケージを公開しているが、DockerイメージやHelm Chartのような「即投入できる」パッケージはまだ乏しい。MLOpsチームが自分で vLLM + FastAPI あたりの皮を被せて運用する必要がある。

Datalabという会社

Chandra 2を出している Datalab は、もともと marker というPDF→Markdown変換のOSSツールで名前が知られていた。2025年ごろから論文PDFの要約・検索用途でLLMコミュニティ内で人気を集めて、そのノウハウをOCRモデル本体に押し込んできた格好だ。

資金調達の派手なニュースはないが、学術系・ドキュメント処理系のニッチで着実にファンを増やしているチームという印象がある。OSSで公開しているのもその文化の延長線上にあって、クラウドで売るというよりも、ハグフェイスやGitHubで無償公開してから大企業が問い合わせてくる、というタイプの広がり方をしている。

筆者の見立てとしては、Chandra 2は 2026年後半から2027年にかけて、日本のエンタープライズ帳票処理の本命オプションのひとつになりうる。クラウドOCRの品質を、ローカルで、無償で、Apache 2.0で受け取れる。この条件が揃うのは、OCR史上で初めてに近い。

試すのは簡単だ。Python環境で pip install chandra-ocr して、GPUを繋いで動かす。モデルは Hugging Face の datalab-to/chandra-ocr-2 から自動で落ちてくる。ファーストインプレッションを得るだけなら、Google Colabの無料枠でも触れる範囲だ。

Chandra OCR 2 公式リポジトリ / Hugging Face モデルページ

手書きも表もPDFも、まとめてテキストに変換する無料AI — Chandra OCR 2の実力

4Bパラメータで9B世代を超えたという事実

何が書き出されるのか

これで何ができるのか — 現実的な用途

正直に言うと、まだ残る難点

Datalabという会社

関連記事

Qwen3.5にClaude Opus 4.6の思考を「移植」した27Bモデルが静かに首位を取った話

ChatGPTもClaudeも使わない「自分だけのAI」を、PewDiePieが無料で配り始めた

「AIがAIを訓練する」時代が来た — Adaption AutoScientistが変えるモデル学習の常識