FLUX.2 Klein — 9Bパラメータの軽量画像生成モデルとApple Silicon対応状況

FLUX.2 Kleinとは

Black Forest Labs（Stable Diffusionの開発メンバーが設立した会社）が公開した画像生成モデル。FLUXシリーズの新ライン。

項目	内容
パラメータ数	90億（9B）
アーキテクチャ	Rectified Flow Transformer
VRAM要件	約29GB
推論速度	RTX 4090で1秒以下
ライセンス	非商用（FLUX Non-Commercial License）

kleinは「蒸留なしで軽量」がポイント。schnellは蒸留で高速化したが出力の多様性が犠牲になっている。kleinは蒸留せずにパラメータ数を減らすことで、多様性を維持しつつ軽量化している。

M1 Max（64GB統合メモリ）で試した場合の想定:

RTX 4090なら12秒で終わる処理に3分以上かかる。

RTX 4090のVRAMは24GBで、モデル要件の29GBより少ない。それでもM1 Max（64GB）より圧倒的に速い。VRAMサイズは「足りていればOK」であって、速度には直接関係しない。

Transformerの推論はメモリ帯域律速。重みを読み出す速度がボトルネックになる。RTX 4090はM1 Maxの2.5倍の帯域幅があるため、単純にその分速い。

FP8量子化を使えばVRAM使用量が半減し、帯域幅の効率も上がる。MPSはFP8に対応していないため、この恩恵を受けられない。

RTX 4090（24GB）で29GBモデルを動かす場合:

pipe.enable_model_cpu_offload()  # 使わないレイヤーをRAMに退避

NVIDIAは10年以上かけてTransformer向けカーネルを最適化してきた。Flash Attention、cuBLAS、TensorRTなどが効く。

MPSは比較的新しいAPIで、最適化が追いついていない。

Apple Silicon向けに最適化されたMLXベースの実装。

antirez（Redis作者）による純C実装。4B版向け。

9Bモデルにこだわらないなら:

RunPod、Vast.ai、Lambda LabsなどでRTX 4090を時間課金で使う。本気で使うならこれが現実的。