#KVキャッシュ

4 件の記事

技術 2026年4月2日(木) 約11分

SwiftLMはTurboQuantとSSDストリーミングをMetalシェーダーに統合したSwift製LLM推論サーバー

Apple Silicon専用のMLX推論サーバーSwiftLMが、TurboQuant V2+V3ハイブリッドKVキャッシュ圧縮とNVMe SSDエキスパートストリーミングをネイティブMetal実装で提供する。

技術 2026年3月31日(火) 約8分

Qwen3.5-35B-A3BはSSM+Attentionハイブリッドで40層中10層しかKVキャッシュを使わない。llama-serverでctx-sizeを4096→65536に拡張してもVRAM増加は800MB、速度低下ゼロ。q8_0 KV量子化の実測とTurboQuantの現状も。

技術 2026年3月25日(水) 約18分

llama.cppのmmap設計を脱却してNVMe 3層配置でDenseモデルもストリーミングするHypuraと、極座標変換で量子化定数オーバーヘッドを排除するTurboQuant。Flash-MoEとの設計比較、KVキャッシュ圧縮が実際に効くシナリオの整理も。

技術 2026年2月20日(金) 更新約11分

Together AIのConsistency DLM（最大14.5倍高速化）と、MIT・HarvardのAttention Matching KV圧縮（50倍圧縮を数秒で）。2026年2月に出た推論コスト削減の2本。