#量子化

3 件の記事

技術 2026年5月26日(火) 約14分

Hy-MT2 1.8BをM1 Maxで動かす、1.25bit 440MB版は標準llama.cppでまだ動かない

M1 Max 64GBでHy-MT2 1.8B Q4_K_M (1.08GB) をllama-serverに載せ、JSON・SRT・HTML・用語拘束・少数言語まで投げて入出力を確認。1.25bit 440MB版は標準llama.cppでロード不可、30B-A3B (hy_v3) もMacの標準ルートで動かない。

AI LLM 翻訳ローカルLLM HuggingFace 量子化 MoE オープンソース Mac Apple Silicon 実験

技術 2026年3月25日(水) 約18分

HypuraのNVMeストリーミングとTurboQuantのKVキャッシュ量子化

llama.cppのmmap設計を脱却してNVMe 3層配置でDenseモデルもストリーミングするHypuraと、極座標変換で量子化定数オーバーヘッドを排除するTurboQuant。Flash-MoEとの設計比較、KVキャッシュ圧縮が実際に効くシナリオの整理も。

LLM ローカルLLM 量子化 Apple Silicon 推論最適化 KVキャッシュ Rust

技術 2026年1月30日(金) 約5分

Not All Bits Are Equal: 推論モデルのメモリ配分に万能解はない

推論モデルでメモリをどう配分すべきか。1700実験から導かれた量子化・KVキャッシュ・推論長のトレードオフを解説する。

LLM 量子化推論論文紹介