Strix HaloのVRAM・メモリ配分を攻略する

EVO-X2でローカルLLM環境を構築したの続き。Strix Haloのメモリ配分でハマったポイントと解決策をまとめた。専用VRAMを増やすほど良いわけではない。むしろ減らしたほうがうまくいく。

Strix Haloのユニファイドメモリ

EVO-X2（Strix Halo）はCPUとGPUで64GB LPDDR5Xを共有するユニファイドメモリ構成。Apple Siliconと同じ発想だが、BIOSで「専用VRAM」と「メインメモリ」に明示的に分割する必要がある。

この配分がLLM推論の安定性と速度に大きく影響する。

出荷時は専用VRAMが32GBに設定されている。LLMを動かすならVRAMを増やしたほうがいいと思いがちだが、実際は逆。

配分	専用VRAM	メインメモリ	結果
48GB/16GB	48GB	16GB	ロード時にメインメモリが足りずクラッシュ
32GB/32GB	32GB	32GB	バランス型、安定
16GB/48GB	16GB	48GB	推奨。ロード安定、溢れても速度変わらず
8GB/56GB	8GB	56GB	実証済み。29.6GBモデルが動作

VRAM 48GB構成で起きた現象:

LM Studio（Vulkan）がStrix Haloを統合GPU（iGPU）と判断し、専用VRAMより共有メモリを優先的に使用する。そのためメインメモリの割り当てが小さいと簡単に詰まる。

モデルのロード時、データは必ずメインメモリを経由してVRAMに転送される。

ディスク → メインメモリ(一時展開・変換) → VRAM転送
            ↑ ここで詰まる

20GBモデルをロードする場合の瞬間最大メモリ消費:

メインメモリが16GBしかない構成では、この一時展開の段階でクラッシュする。モデルの最終的なVRAM消費量ではなく、ロード時の「通路」の広さが問題になる。

BIOSで VRAM 8GB〜16GB / メインメモリ 48GB〜56GB に設定する。

BIOS設定手順:

ロード時のスパイク対策として、SSDに仮想メモリを確保する。

VRAM配分によってKVキャッシュの置き場所を変える:

VRAM配分	KVキャッシュ	理由
48GB/16GB	ON（VRAMへ）	VRAMに余裕あり、メインメモリ節約
8〜16GB/48〜56GB	OFF（メインへ）	メインメモリに余裕あり

big-tiger-gemma-27b-v3-heretic-v2（29.6GB Q8_0）での実測:

専用VRAMがたった8GBでも、LM Studioが共有メモリをGPU推論に活用して問題なく動作した。

Gemma 3は他のモデルと比べて異常にメモリを消費する。

原因は語彙サイズ（Vocab Size）の大きさ。Gemma 3は256kで、Llama 3の128kの2倍ある。コンテキスト長を伸ばすとKV Cacheが爆発的に増加する。

設定	K Cache	V Cache	備考
推奨	q4_0	f16	Vを圧縮すると回答が崩壊しやすい
メモリ不足時	q4_0	q8_0	Vはq4_0まで落とさない

V Cacheの量子化はモデルの出力品質に直結する。q4_0まで落とすと文脈を忘れたり、回答がおかしくなったりする。K Cacheはq4_0まで落としても品質への影響は小さい。

Gemma系は安全性ガードレールが最も厳しいモデルファミリーの一つ。NSFW以前に、軽い話題でも「話したくない」と拒否されることがある。

abliterated/uncensored版にも限界がある。検閲レイヤーを除去しても、学習データ自体からNSFWデータが除外されているため「知識がない」状態になる。

Gemma以外でNSFW対応が期待できるモデル:

現時点ではMS3.2-24B-Magnum-Diamondがバランス的にベスト。