#VLM

9 件の記事

技術2026年7月24日(金)約12分

Qwenはchat.completionsのenable_searchでも検索したが、参照したURLはResponses APIでないと取れなかった

ModelScope経由のQwen3.7とAlibaba Cloud Model StudioのQwen3.8で、OpenAI互換chat.completionsのenable_search、DashScopeのsearch_options、Responses APIの組み込みweb_searchツールを比較検証。雑談に検索を混ぜるとreasoning_tokensが10倍以上に跳ね、Qwen3.7-Maxはテキスト専用で画像入力はQwen3-VL系が別に必要と分かるまでを実測した。

Qwen LLM API VLM 実験 Python

技術2026年5月19日(火)約9分

ByteDance Lanceは3Bで画像と動画の理解・生成・編集をまとめたApache 2.0モデル

ByteDanceのLanceを一次情報で確認。3Bの統合マルチモーダルモデルで、画像・動画の理解、生成、編集を1つのCLIから扱える一方、推論には40GB以上のVRAMが要求される。

AI マルチモーダル画像生成動画生成 VLM オープンソース HuggingFace

技術2026年5月2日(土)約13分

OCR-Memoryはエージェントの履歴を画像として思い出す

arXiv:2604.26622のOCR-Memoryを読んだ。エージェントの長い実行履歴を画像化し、Set-of-Markで該当箇所だけ選ばせ、元ログから逐語テキストを戻すメモリ方式だ。

AI AIエージェント OCR VLM RAG トークン管理論文

技術2026年4月30日(木)約10分

信頼度スコアで文書抽出の人手確認を絞る

フィールド単位の信頼度スコアで人手確認を絞る設計と、freee MCPで仕訳自動化を試して踏んだOCR・閾値の壁。

AI OCR VLM MCP AIエージェント API

技術2026年4月27日(月)約6分

LLaDA2.0-Uniは拡散LLMで画像理解と生成を一本化したオープンモデル

Inclusion AIがLLaDA2.0-Uniを公開した。16B MoEの拡散LLMを中核に、画像理解、1024px画像生成、画像編集、テキストと画像の交互生成を単一モデルで扱う。

AI LLM 画像生成 VLM MoE オープンモデル拡散モデル

技術2026年4月14日(火)約14分

ローカルVision LLMでキャラ画像からRPGパラメータを抽出できるか試した

Gemma、Qwen2.5-VLなどのローカルVision LLMにキャラクターの立ち絵やドット絵を入力し、RPG風のステータスをJSON形式で返せるか実験した記録。

AI ローカルLLM VLM 画像認識 Ollama Gemma Qwen Apple Silicon 実験

技術2026年3月17日(火)約6分

GLM-OCR（0.9B）が文書解析SOTAを更新したので段組・縦書き・数式対応を調べた

智谱AIが公開したGLM-OCRは0.9Bパラメータながら文書解析ベンチマークOmniDocBench v1.5で94.62%を記録。レイアウト解析、縦書き、数式認識の実力を調査した。

AI OCR VLM GLM

技術2026年1月30日(金)約4分

PaddleOCR-VL-1.5 — 0.9Bパラメータで文書解析SOTAを更新

Baiduが公開したPaddleOCR-VL-1.5は、わずか0.9Bのパラメータで文書解析ベンチマークOmniDocBench v1.5において94.5%の精度を達成。GPT-4oやQwen2.5-VL-72Bを上回るSOTA性能を記録した。

AI OCR VLM PaddlePaddle

技術2026年1月20日(火)約4分

VLMベースOCRの台頭 - DeepSeek-OCRとハイブリッド活用の可能性

従来のOCRとVLM（Vision Language Model）ベースOCRの違いを解説。DeepSeek-OCRの紹介と、両者を組み合わせたハイブリッド手法の可能性を考察する。

AI OCR DeepSeek VLM