技術 2026年2月20日(金) 約11分 LLM推論を高速化する2つのアプローチ:CDLMとAttention Matching KV圧縮 Together AIのConsistency DLM(最大14.5倍高速化)と、MIT・HarvardのAttention Matching KV圧縮(50倍圧縮を数秒で)。2026年2月に出た推論コスト削減の2本。 AI LLM 推論最適化 KVキャッシュ 拡散モデル