技術 2026年5月26日(火) 約14分 Hy-MT2 1.8BをM1 Maxで動かす、1.25bit 440MB版は標準llama.cppでまだ動かない M1 Max 64GBでHy-MT2 1.8B Q4_K_M (1.08GB) をllama-serverに載せ、JSON・SRT・HTML・用語拘束・少数言語まで投げて入出力を確認。1.25bit 440MB版は標準llama.cppでロード不可、30B-A3B (hy_v3) もMacの標準ルートで動かない。 AI LLM 翻訳 ローカルLLM HuggingFace 量子化 MoE オープンソース Mac Apple Silicon 実験
技術 2026年3月25日(水) 約18分 HypuraのNVMeストリーミングとTurboQuantのKVキャッシュ量子化 llama.cppのmmap設計を脱却してNVMe 3層配置でDenseモデルもストリーミングするHypuraと、極座標変換で量子化定数オーバーヘッドを排除するTurboQuant。Flash-MoEとの設計比較、KVキャッシュ圧縮が実際に効くシナリオの整理も。 LLM ローカルLLM 量子化 Apple Silicon 推論最適化 KVキャッシュ Rust
技術 2026年1月30日(金) 約5分 Not All Bits Are Equal: 推論モデルのメモリ配分に万能解はない 推論モデルでメモリをどう配分すべきか。1700実験から導かれた量子化・KVキャッシュ・推論長のトレードオフを解説する。 LLM 量子化 推論 論文紹介