技術 2025年12月1日 約3分 NDLOCRの段組認識問題をヒストグラム解析で力技解決 4段組縦書き書籍のOCRで、Layout Parserが使えずPyMuPDFとヒストグラム解析で段を切り出した話 NDLOCR OCR Python PyMuPDF