技術 2026年5月17日(日) 約8分 BERTはキーワード検索から文脈検索へ何を変えたか DEV CommunityのBERT解説を、Google Searchでの2019年導入、masked language model、OCR校正やEmbedding検索との違いから読み直す。生成ではなく文脈を読むエンコーダーとして見ると使いどころがはっきりする。 AI BERT 自然言語処理 検索 機械学習 Python
技術 2026年3月23日(月) 約14分 BERT+Qwen OCR校正パイプラインをPythonツールにした BERT perplexityスキャン→LLM判定→エスカレーションの3段パイプラインを、Win/Mac/Linux対応のPythonツールにパッケージング。インストーラーがllama-serverとGGUFモデルまで自動で落としてくる。 自然言語処理 OCR 機械学習 Python BERT LLM llama.cpp Qwen NDLOCR-Lite Gradio Ollama 実験
技術 2026年2月28日(土) 約16分 エンコーダーモデル+ローカルLLMでOCR誤字を自動検出・修正する LUKE/BERTのfill-maskファインチューニングから始めて、perplexityベースの誤字検出→Qwen2.5 7Bでの修正判定→不一致時エスカレーションのパイプラインに至るまでの実験ログ。VRAM 8GBのRTX 4060 Laptopで完結する構成。 自然言語処理 OCR 機械学習 Python BERT LUKE Ollama LLM WSL2 NDLOCR-Lite 実験