拡散モデルの記事 | lilting channel

技術 2026年2月20日(金) 更新約11分

LLM推論を高速化するCDLMとAttention Matching KV圧縮

Together AIのConsistency DLM（最大14.5倍高速化）と、MIT・HarvardのAttention Matching KV圧縮（50倍圧縮を数秒で）。2026年2月に出た推論コスト削減の2本。