技術 2026年5月19日(火) 約9分 ByteDance Lanceは3Bで画像と動画の理解・生成・編集をまとめたApache 2.0モデル ByteDanceのLanceを一次情報で確認。3Bの統合マルチモーダルモデルで、画像・動画の理解、生成、編集を1つのCLIから扱える一方、推論には40GB以上のVRAMが要求される。 AI マルチモーダル 画像生成 動画生成 VLM オープンソース HuggingFace
技術 2026年5月2日(土) 約13分 OCR-Memoryはエージェントの履歴を画像として思い出す arXiv:2604.26622のOCR-Memoryを読んだ。エージェントの長い実行履歴を画像化し、Set-of-Markで該当箇所だけ選ばせ、元ログから逐語テキストを戻すメモリ方式だ。 AI AIエージェント OCR VLM RAG トークン管理 論文
技術 2026年4月30日(木) 約10分 信頼度スコアで文書抽出の人手確認を絞る フィールド単位の信頼度スコアで人手確認を絞る設計と、freee MCPで仕訳自動化を試して踏んだOCR・閾値の壁。 AI OCR VLM MCP AIエージェント API
技術 2026年4月27日(月) 約6分 LLaDA2.0-Uniは拡散LLMで画像理解と生成を一本化したオープンモデル Inclusion AIがLLaDA2.0-Uniを公開した。16B MoEの拡散LLMを中核に、画像理解、1024px画像生成、画像編集、テキストと画像の交互生成を単一モデルで扱う。 AI LLM 画像生成 VLM MoE オープンモデル 拡散モデル
技術 2026年4月14日(火) 約14分 ローカルVision LLMでキャラ画像からRPGパラメータを抽出できるか試した Gemma、Qwen2.5-VLなどのローカルVision LLMにキャラクターの立ち絵やドット絵を入力し、RPG風のステータスをJSON形式で返せるか実験した記録。 AI ローカルLLM VLM 画像認識 Ollama Gemma Qwen Apple Silicon 実験
技術 2026年3月17日(火) 約6分 GLM-OCR(0.9B)が文書解析SOTAを更新したので段組・縦書き・数式対応を調べた 智谱AIが公開したGLM-OCRは0.9Bパラメータながら文書解析ベンチマークOmniDocBench v1.5で94.62%を記録。レイアウト解析、縦書き、数式認識の実力を調査した。 AI OCR VLM GLM
技術 2026年1月30日(金) 約4分 PaddleOCR-VL-1.5 — 0.9Bパラメータで文書解析SOTAを更新 Baiduが公開したPaddleOCR-VL-1.5は、わずか0.9Bのパラメータで文書解析ベンチマークOmniDocBench v1.5において94.5%の精度を達成。GPT-4oやQwen2.5-VL-72Bを上回るSOTA性能を記録した。 AI OCR VLM PaddlePaddle
技術 2026年1月20日(火) 約4分 VLMベースOCRの台頭 - DeepSeek-OCRとハイブリッド活用の可能性 従来のOCRとVLM(Vision Language Model)ベースOCRの違いを解説。DeepSeek-OCRの紹介と、両者を組み合わせたハイブリッド手法の可能性を考察する。 AI OCR DeepSeek VLM