#推論

4 件の記事

技術 2026年5月7日(木) 約7分

Gemma 4 MTP drafterをM1 Max 64GBで実測、26B A4Bだけ速くなって31BとE4Bは遅くなった

M1 Max 64GB + mlx-vlm 0.5.0でGemma 4 MTP drafterを実測。26B A4B (MoE) だけ+13%速くなり、公式が一番効くと言った31B DenseとE4Bは逆に遅くなった。コード生成と短文haikuで結論が反転する。

AI LLM Google Gemma ローカルLLM 推論 MLX 実験

技術 2026年5月6日(水) 更新約9分

Gemma 4のMTP drafterで最大3倍高速化、ただし26B MoEはbatch 1で伸びにくい

Google公式のGemma 4 MTP drafter公開を読む。最大3倍高速化の仕組み、vLLMの推奨設定、26B A4Bがbatch 1で伸びにくい理由まで確認した。

AI LLM Google Gemma ローカルLLM 推論

技術 2026年2月2日(月) 約5分

Power Sampling：強化学習なしでLLMの推論能力を引き出す

RLで学習させなくても、推論時のサンプリング戦略を変えるだけでLLMの推論性能が向上する。Haitham Bou Ammar氏の記事をもとに、Power Samplingの仕組みと実務的なインパクトを解説する。

LLM 推論強化学習サンプリング AI

技術 2026年1月30日(金) 約5分

Not All Bits Are Equal: 推論モデルのメモリ配分に万能解はない

推論モデルでメモリをどう配分すべきか。1700実験から導かれた量子化・KVキャッシュ・推論長のトレードオフを解説する。

LLM 量子化推論論文紹介