技術 2026年3月9日(月) 約7分 NDLOCR-LiteをiOSネイティブアプリに載せてスマホOCRする NDLOCR-LiteのDEIMv2+PARSeqをONNX Runtime MobileでiOSアプリに同梱し、カメラ撮影→台形補正→レイアウト検出→文字認識→信頼度ベース校正をオンデバイスで完結させる。 OCR NDLOCR-Lite iOS Swift ONNX Runtime モバイル開発 実験
技術 2026年2月28日(土) 約16分 エンコーダーモデル+ローカルLLMでOCR誤字を自動検出・修正する LUKE/BERTのfill-maskファインチューニングから始めて、perplexityベースの誤字検出→Qwen2.5 7Bでの修正判定→不一致時エスカレーションのパイプラインに至るまでの実験ログ。VRAM 8GBのRTX 4060 Laptopで完結する構成。 自然言語処理 OCR 機械学習 Python BERT LUKE ollama LLM WSL2 NDLOCR-Lite 実験
技術 2026年2月27日(金) 約8分 ScanSnap+NDLOCR-Liteで機密文書をローカルOCRするホットフォルダを作った ScanSnapで読み込んだ画像をフォルダ監視スクリプトで自動OCRし、LLM校正まで試した記録。エアギャップ環境でのセキュリティ設計も含む。 OCR NDLOCR-Lite ScanSnap Python Mac ローカルLLM 実験
技術 2026年2月27日(金) 約7分 NDLOCRを3か月やった記録と周辺の実装いろいろ Docker版で地獄を見てからLite+LLM校正まで。自分の試行錯誤と、NDLOCR-LiteをブラウザOCRにした人の実装を紹介する。 OCR NDLOCR NDLOCR-Lite Python Docker ローカルLLM ONNX WebAssembly 実験
技術 2026年2月26日(木) 更新 約13分 NDLOCR-Liteの読み取り結果をQwen3.5とSwallowで校正比較した NDLOCR-LiteのCLI版をApple Silicon Macにセットアップし、Qwen 3.5やSwallowでOCR結果を校正してみた記録。画像直読みやアンカリング効果など、いろいろ試した。 OCR Python NDLOCR-Lite Mac Qwen Swallow ollama ローカルLLM 実験
技術 2026年2月25日(水) 更新 約8分 国立国会図書館が作ったOCR「NDLOCR-Lite」をWindowsで動かしてみた 国立国会図書館が公開したGPU不要の軽量OCR「NDLOCR-Lite」をWindows 11にインストールしてCLI・GUIの両方で試した記録。 OCR Python NDLOCR-Lite 実験
技術 2026年2月1日(日) 約4分 PageIndex — ベクトル検索なしでLLM推論だけのツリーRAG チャンキングもベクトルDBも使わず、LLMの推論で文書の階層ツリーを構築するRAGシステム「PageIndex」を調べた。段組認識やOCRパイプラインとの接続も考察。 AI RAG LLM OCR Python
技術 2026年1月30日(金) 約4分 PaddleOCR-VL-1.5 — 0.9Bパラメータで文書解析SOTAを更新 Baiduが公開したPaddleOCR-VL-1.5は、わずか0.9Bのパラメータで文書解析ベンチマークOmniDocBench v1.5において94.5%の精度を達成。GPT-4oやQwen2.5-VL-72Bを上回るSOTA性能を記録した。 AI OCR VLM PaddlePaddle
技術 2026年1月20日(火) 約4分 VLMベースOCRの台頭 - DeepSeek-OCRとハイブリッド活用の可能性 従来のOCRとVLM(Vision Language Model)ベースOCRの違いを解説。DeepSeek-OCRの紹介と、両者を組み合わせたハイブリッド手法の可能性を考察する。 AI OCR DeepSeek VLM
技術 2025年12月7日(日) 約6分 【OCR】2025年のウェブ実装の限界と知見まとめ ブラウザOCR、サーバーOCR、クラウドAPI、AIまで。日本語OCRをウェブで実装しようとして得た知見と各手法の限界をまとめる OCR JavaScript Tesseract.js NDLOCR Transformers.js AI Docker Google Cloud Vision PaddleOCR 日本語OCR ブラウザ 実験
技術 2025年12月6日(土) 約2分 @paddlejs-models/ocr はブラウザで動かない(2025年時点) PaddleOCRのJavaScript実装をブラウザで使おうとして失敗した記録 JavaScript OCR PaddleOCR トラブルシューティング 実験
技術 2025年12月1日(月) 約3分 NDLOCRの段組認識問題をヒストグラム解析で力技解決 4段組縦書き書籍のOCRで、Layout Parserが使えずPyMuPDFとヒストグラム解析で段を切り出した話 NDLOCR OCR Python PyMuPDF 実験