Not All Bits Are Equal: 推論モデルのメモリ配分に万能解はない

この論文について

Xで流れてきた論文が面白かったので紹介する。

Not All Bits Are Equal: Scale-Dependent Memory Optimization Strategies for Reasoning Models（arXiv:2510.10964、2025年10月）

著者はKrafton・UW-Madison・UC Berkeleyの共同研究チーム。筆頭著者のDimitris PapailiopoulosはUW-Madisonの准教授で、Microsoft ResearchのAI Frontiers Labにも所属している。

何を調べた論文か

固定のメモリ予算があるとき、推論モデルの精度を最大化するにはメモリをどう配分すべきか？ という問いに答える論文。

配分先は大きく3つ:

モデルの重み: パラメータ数と量子化ビット数
KVキャッシュ: 推論中の中間状態を保持するメモリ
テスト時計算: 推論トークン数（どれだけ長く考えさせるか）

たとえば同じメモリ予算で、32Bモデルを4bit量子化して14kトークンで動かすのと、8Bモデルを16bitのまま30kトークンで動かすのと、どちらが賢いか。非推論モデルでは「4bit量子化が万能解」とされてきたが、推論モデルではそう単純ではない。

実験設計

Qwen3ファミリー（0.6B〜32B）を対象に、以下の変数を組み合わせた1700パターンの実験を実施。

モデルサイズ: 0.6B / 1.7B / 4B / 8B / 14B / 32B
重みの量子化: 4bit / 8bit / 16bit（GPTQ）
推論トークン予算: 2k〜30k（budget forcing）
並列スケーリング: 多数決投票（Maj@K、K=1〜16）
KVキャッシュ圧縮: eviction（R-KV、StreamingLLM）/ 量子化（HQQ 2/4/8bit）

ベンチマークはAIME25（数学推論）とGPQA-Diamond（知識集約型推論）の2つ。

主要な発見

8bit 4Bモデルが境界線になる

論文の最も重要な発見は、実効サイズ8bit 4B（約4.2GB） を境に最適戦略が反転すること。

8bit 4B未満: メモリを重みの精度・サイズに使うべき。長く考えさせてもリターンが少ない
8bit 4B以上: メモリを推論トークン予算に回すべき。精度を落としてでも長く考えさせたほうが良い

この閾値は恣意的なものではなく、重みのメモリ占有がKVキャッシュを上回るちょうどその境界にあたる。

タスクの性質で最適解が変わる

数学推論（AIME25） では、4bit量子化はほぼ常に悪手。8Bモデルを16bitで動かすほうが、14Bモデルを4bitにするより高精度になる。重みの数値精度が推論能力に直結しているようで、量子化によってテスト時計算を活用する能力そのものが損なわれる。

知識集約型（GPQA-Diamond） では、4bit量子化が広く有効。ここではパラメータ数のほうが精度より重要になる。知識を多く格納できるパラメータ数が、推論長よりも効く。

つまり「何を解かせるか」によって最適な量子化戦略が変わる。

多数決投票は大きいモデルでのみ有効

多数決投票（Maj@K）はKVキャッシュをK倍消費する。実験の結果:

8bit 4B以上: 多数決投票がメモリ効率的に機能する。最適なKはメモリ予算が増えるほど大きくなる
8bit 4B未満: 逐次的に長く考えさせるほうが良い。多数決投票はメモリの無駄遣い

KVキャッシュ圧縮でPareto最適が改善する

重みの量子化だけでなく、KVキャッシュの圧縮も全モデルサイズで有効。圧縮方法の使い分けは:

小さいモデル（8bit 8B未満）: KVキャッシュのeviction（不要トークンの削除）が優位。R-KVがほぼ無劣化でメモリを削減する
大きいモデル（8bit 8B以上）: evictionと量子化のどちらも同程度に有効
2bit量子化は要注意: モデルサイズによらず精度劣化が大きい

レイテンシは生成長が支配する

エンドツーエンドのレイテンシは生成トークン数にほぼ比例する。具体的な数値として:

14Bモデル4bit: 10kトークン生成に130.1秒
14Bモデル16bit: 6kトークン生成に137.7秒

レイテンシを重視する場合、8bitが速度と精度のバランスで最も良い位置にあることが多い。4bitはレイテンシのPareto最適にも登場しない。

バッチ推論では戦略が変わる

バッチサイズ16で重みが共有される場合:

0.6BモデルはPareto最適から完全に消える
4B 8bitモデルは1〜2GB/生成の領域で常にPareto上に残る（モバイルデバイス向けに良い設定）
最適なモデルサイズが全体的に大きい方向にシフトする

実務的な判断フロー

論文が示す判断基準を整理する。

実効サイズが8bit 4B未満の場合:

メモリはモデルの精度・サイズに投資する
数学系タスクなら8bit以上を選ぶ
KVキャッシュはevictionで圧縮する
多数決投票は使わず、逐次的に長く考えさせる

実効サイズが8bit 4B以上の場合:

推論トークン予算を飽和するまで伸ばす
多数決投票を活用し、余裕に応じてKを増やす
KVキャッシュはevictionでも量子化でも好みで

共通の注意点:

数学推論では4bit量子化を避ける
知識系タスクではパラメータ数を優先する
レイテンシ重視なら8bitが最適点になりやすい

所感

「4bit量子化しておけばOK」という雑な理解でいたので、推論モデルではそれが通用しないという指摘は刺さった。特に4bit量子化で「推論能力そのものが劣化する」というのは、考えてみれば当たり前だけど定量的に示されると説得力がある。

ただしこの結果はQwen3ファミリー限定で、AIME25とGPQA-Dという2つのベンチマーク上での話。アーキテクチャやタスクが変われば閾値も変わるだろうから、そのまま他のモデルに適用はできない。それでも「メモリ配分の最適化はスケール依存」という大枠の知見は、ローカルLLMを動かすときの判断材料として価値がある。