技術 2026年4月27日(月) 約6分 LLaDA2.0-Uniは拡散LLMで画像理解と生成を一本化したオープンモデル Inclusion AIがLLaDA2.0-Uniを公開した。16B MoEの拡散LLMを中核に、画像理解、1024px画像生成、画像編集、テキストと画像の交互生成を単一モデルで扱う。 AI LLM 画像生成 VLM MoE オープンモデル 拡散モデル
技術 2026年4月14日(火) 約14分 ローカルVision LLMでキャラ画像からRPGパラメータを抽出できるか試した Gemma、Qwen2.5-VLなどのローカルVision LLMにキャラクターの立ち絵やドット絵を入力し、RPG風のステータスをJSON形式で返せるか実験した記録。 AI ローカルLLM VLM 画像認識 Ollama Gemma Qwen Apple Silicon 実験
技術 2026年3月17日(火) 約6分 GLM-OCR(0.9B)が文書解析SOTAを更新したので段組・縦書き・数式対応を調べた 智谱AIが公開したGLM-OCRは0.9Bパラメータながら文書解析ベンチマークOmniDocBench v1.5で94.62%を記録。レイアウト解析、縦書き、数式認識の実力を調査した。 AI OCR VLM GLM
技術 2026年1月30日(金) 約4分 PaddleOCR-VL-1.5 — 0.9Bパラメータで文書解析SOTAを更新 Baiduが公開したPaddleOCR-VL-1.5は、わずか0.9Bのパラメータで文書解析ベンチマークOmniDocBench v1.5において94.5%の精度を達成。GPT-4oやQwen2.5-VL-72Bを上回るSOTA性能を記録した。 AI OCR VLM PaddlePaddle
技術 2026年1月20日(火) 約4分 VLMベースOCRの台頭 - DeepSeek-OCRとハイブリッド活用の可能性 従来のOCRとVLM(Vision Language Model)ベースOCRの違いを解説。DeepSeek-OCRの紹介と、両者を組み合わせたハイブリッド手法の可能性を考察する。 AI OCR DeepSeek VLM