#推論最適化

7 件の記事

技術 2026年4月3日(金) 約8分

LemonadeをStrix Halo (EVO-X2) で動かしたらVulkanの共有メモリ漏れとROCmの安定性が見えた

AMD Lemonade v10.0.1をRyzen AI Max+ 395環境で検証。LLM・画像生成・音声認識・音声合成の4モデル同時起動、NPU Hybrid実行、Vulkan vs ROCmの実測比較と共有メモリ漏れの発見まで。

技術 2026年4月3日(金) 約9分

AMDが開発するオープンソースのローカルAIサーバーLemonadeは、llama.cppやFastFlowLMなど複数バックエンドをGPU/NPU/CPU横断で管理し、OpenAI互換APIでテキスト・画像・音声を統合提供する。

技術 2026年4月2日(木) 約11分

Apple Silicon専用のMLX推論サーバーSwiftLMが、TurboQuant V2+V3ハイブリッドKVキャッシュ圧縮とNVMe SSDエキスパートストリーミングをネイティブMetal実装で提供する。

技術 2026年3月31日(火) 約6分

Ollama 0.19がApple SiliconでのバックエンドをMLXに切り替え、プリフィル1810トークン/秒・デコード112トークン/秒を達成。NVFP4量子化サポートとキャッシュ改善も同時投入された。

技術 2026年3月25日(水) 約18分

llama.cppのmmap設計を脱却してNVMe 3層配置でDenseモデルもストリーミングするHypuraと、極座標変換で量子化定数オーバーヘッドを排除するTurboQuant。Flash-MoEとの設計比較、KVキャッシュ圧縮が実際に効くシナリオの整理も。

技術 2026年3月6日(金) 約10分

GPT-5.3 Instantのハルシネーション削減と安全性退行、GPT-5.4のcomputer use・Tool Search・1Mトークンコンテキスト、そしてSaguaroが実現した推論5倍高速化をまとめた。

技術 2026年2月20日(金) 更新約11分

Together AIのConsistency DLM（最大14.5倍高速化）と、MIT・HarvardのAttention Matching KV圧縮（50倍圧縮を数秒で）。2026年2月に出た推論コスト削減の2本。