#量子化

2 件の記事

技術 2026年3月25日(水) 約18分

HypuraのNVMeストリーミングとTurboQuantのKVキャッシュ量子化

llama.cppのmmap設計を脱却してNVMe 3層配置でDenseモデルもストリーミングするHypuraと、極座標変換で量子化定数オーバーヘッドを排除するTurboQuant。Flash-MoEとの設計比較、KVキャッシュ圧縮が実際に効くシナリオの整理も。

LLM ローカルLLM 量子化 Apple Silicon 推論最適化 KVキャッシュ Rust

技術 2026年1月30日(金) 約5分

Not All Bits Are Equal: 推論モデルのメモリ配分に万能解はない

推論モデルでメモリをどう配分すべきか。1700実験から導かれた量子化・KVキャッシュ・推論長のトレードオフを解説する。

LLM 量子化推論論文紹介