技術 2026年1月20日(火) 約4分 VLMベースOCRの台頭 - DeepSeek-OCRとハイブリッド活用の可能性 従来のOCRとVLM(Vision Language Model)ベースOCRの違いを解説。DeepSeek-OCRの紹介と、両者を組み合わせたハイブリッド手法の可能性を考察する。 AI OCR DeepSeek VLM
技術 2025年12月7日(日) 約6分 【OCR】2025年のウェブ実装の限界と知見まとめ ブラウザOCR、サーバーOCR、クラウドAPI、AIまで。日本語OCRをウェブで実装しようとして得た知見と各手法の限界をまとめる OCR JavaScript Tesseract.js NDLOCR Transformers.js AI Docker Google Cloud Vision PaddleOCR 日本語OCR ブラウザ 実験
技術 2025年12月6日(土) 約2分 @paddlejs-models/ocr はブラウザで動かない(2025年時点) PaddleOCRのJavaScript実装をブラウザで使おうとして失敗した記録 JavaScript OCR PaddleOCR トラブルシューティング 実験
技術 2025年12月1日(月) 約3分 NDLOCRの段組認識問題をヒストグラム解析で力技解決 4段組縦書き書籍のOCRで、Layout Parserが使えずPyMuPDFとヒストグラム解析で段を切り出した話 NDLOCR OCR Python PyMuPDF 実験
技術 2025年12月1日(月) 約4分 NDLOCR Docker イメージビルドの成功手順まとめ NDLOCRのDockerイメージビルドでハマったポイントと解決策 Docker NDLOCR OCR Windows AI CUDA 実験