技術 約4分で読めます

VLMベースOCRの台頭 - DeepSeek-OCRとハイブリッド活用の可能性

きっかけ

GitHubで「local_ai_ocr」というツールを見かけた。ローカルで動くAI OCRツールらしい。中身を調べてみたら、DeepSeek社の公式モデル「DeepSeek-OCR」をラップしたものだった。

DeepSeek-OCRを調べていくと、これが従来のOCRとは根本的に異なるアプローチだと分かった。

以前、2025年のウェブOCR実装について記事を書いた。そこでは Tesseract.js、NDLOCR、Cloud Vision API などを比較したが、VLMベースのOCRは「AI」として軽く触れただけだった。今回はそこを掘り下げる。

DeepSeek-OCRとは

DeepSeek社(deepseek-ai)が公開している公式プロジェクト。

正式名称は「Contexts Optical Compression」。OCR(Optical Character Recognition)ではなく、あえて別の名前を使っている点が興味深い。

VLM-OCRと従来OCRの違い

ここで言う「VLM-OCR」とは、VLM(Vision Language Model)を使って画像からテキストを抽出する手法を指す。従来のOCRとは根本的にアプローチが異なる。

比較表

項目従来OCRVLM-OCR
代表例Tesseract.jsNDLOCRDeepSeek-OCR、GPT-4V
方式パターンマッチング・画像処理LLMによる推論
仕組み文字の形状を認識画像を見て「何が書いてあるか」を生成
出力プレーンテキストMarkdown等の構造化テキスト
処理速度高速比較的遅い
リソース軽量GPU推奨、メモリ大量消費

それぞれの強みと弱み

従来OCRの強み

  • 高速・軽量
  • 明瞭な印刷文字には高精度
  • 決定論的(同じ入力なら同じ出力)

従来OCRの弱み

  • 0とOの混同、1とlの混同など形状の似た文字に弱い
  • 手書き・崩れた文字の認識精度が低い
  • レイアウト理解が苦手(表、段組みなど)— NDLOCRでも4段組は苦戦した

VLM-OCRの強み

  • 文脈を理解して補完できる(「金額欄だから0だろう」など)
  • 手書きや崩れた文字にも強い
  • 表や段組みを構造化して出力できる

VLM-OCRの弱み

  • ハルシネーションのリスク(実際には書かれていない文字を生成する可能性)
  • 処理が重い(GPU推奨、モデルサイズが大きい)
  • 非決定論的(同じ入力でも出力が変わりうる)

ハイブリッドOCRの可能性

両者の弱点を補完できるのではないか、という発想が浮かぶ。

補完関係

従来OCRの弱点        →  VLMで補える
────────────────────────────────────
0/Oの混同            →  文脈から「金額だから0」と判断
手書き・崩れた文字   →  意味を推測して補完
レイアウト理解       →  表や段組みを構造化

VLMの弱点            →  従来OCRで補える
────────────────────────────────────
ハルシネーション     →  「実際にある文字」の証拠として照合
細かい数字の精度     →  ピクセル単位の認識結果
処理速度・コスト     →  軽量で高速な一次処理

実装イメージ

  1. 両方でOCR実行 - 従来OCRとVLM-OCRを並列で走らせる
  2. 差分を検出 - 結果が異なる箇所を特定
  3. マージまたは確認 - 差分箇所はVLM側を採用、または人間確認

特に精度が重要な業務(請求書処理、契約書のデジタル化など)で有効そうだ。

local_ai_ocrについて

冒頭で触れた「local_ai_ocr」は、DeepSeek-OCRをWindows向けにパッケージングしたサードパーティ製ツール。

  • リポジトリ: github.com/th1nhhdk/local_ai_ocr
  • ライセンス: Apache-2.0
  • 対応OS: Windows 10以降
  • 初期セットアップ: 6.67GBのモデルダウンロードが必要

オフラインで動作する点は魅力だが、サードパーティ製なのでメンテナンス継続性は不明。本格的に使うなら、DeepSeek-OCR本体を直接使う方が安心かもしれない。

OCRは「読む」から「理解する」へ

VLM-OCRの登場で、OCRの概念が変わりつつある。

従来のOCRは「画像から文字を読み取る」ツールだった。VLM-OCRは「画像の内容を理解してテキスト化する」ツールと言える。

どちらが優れているという話ではなく、用途に応じた使い分けが重要。そして両者のハイブリッドには、まだ掘り下げる余地がありそうだ。

関連記事