技術 2026年1月30日(金) 約5分 Not All Bits Are Equal: 推論モデルのメモリ配分に万能解はない 推論モデルでメモリをどう配分すべきか。1700実験から導かれた量子化・KVキャッシュ・推論長のトレードオフを解説する。 LLM 量子化 推論 論文紹介