#OCR

17 件の記事

VLMベースOCRの台頭 - DeepSeek-OCRとハイブリッド活用の可能性

技術2026年1月20日(火)約4分

VLMベースOCRの台頭 - DeepSeek-OCRとハイブリッド活用の可能性

従来のOCRとVLM（Vision Language Model）ベースOCRの違いを解説。DeepSeek-OCRの紹介と、両者を組み合わせたハイブリッド手法の可能性を考察する。

AI OCR DeepSeek VLM

【OCR】2025年のウェブ実装の限界と知見まとめ

技術2025年12月7日(日)約6分

【OCR】2025年のウェブ実装の限界と知見まとめ

ブラウザOCR、サーバーOCR、クラウドAPI、AIまで。日本語OCRをウェブで実装しようとして得た知見と各手法の限界をまとめる

OCR JavaScript Tesseract.js NDLOCR Transformers.js AI Docker Google Cloud Vision PaddleOCR 日本語OCR ブラウザ実験

@paddlejs-models/ocr はブラウザで動かない（2025年時点）

技術2025年12月6日(土)約2分

@paddlejs-models/ocr はブラウザで動かない（2025年時点）

PaddleOCRのJavaScript実装をブラウザで使おうとして失敗した記録

JavaScript OCR PaddleOCR トラブルシューティング実験

NDLOCRの段組認識問題をヒストグラム解析で力技解決

技術2025年12月1日(月)約3分

NDLOCRの段組認識問題をヒストグラム解析で力技解決

4段組縦書き書籍のOCRで、Layout Parserが使えずPyMuPDFとヒストグラム解析で段を切り出した話

NDLOCR OCR Python PyMuPDF 実験

NDLOCR Docker イメージビルドの成功手順まとめ

技術2025年12月1日(月)約4分

NDLOCR Docker イメージビルドの成功手順まとめ

NDLOCRのDockerイメージビルドでハマったポイントと解決策

Docker NDLOCR OCR Windows AI CUDA 実験