技術
約3分で読めます
Z-Image-Distilled — 蒸留で高速化しても多様性を維持したZ-Image派生モデル
Z-Image-Distilledとは
Z-Image(通義・造相)をベースに、蒸留(Distillation)で推論を高速化した派生モデル。
- 公式ページ: GuangyuanSD/Z-Image-Distilled - Hugging Face
- Civitai: Z-Image-Distilled
Z-Image-Turboとは別系統で、Turboのウェイトやスタイルは一切含まれていない「純血」の蒸留版。
基本スペック
| 項目 | Z-Image(オリジナル) | Z-Image-Distilled |
|---|---|---|
| 推奨ステップ数 | 28〜50 | 10〜20 |
| CFG | 3.0〜7.0 | 1.0〜2.5 |
| 多様性 | ◎ | ○(Turboより高い) |
| LoRA互換性 | ◎ | ◎ |
| ライセンス | Apache-2.0 | Apache-2.0 |
10〜20ステップで良好な結果が得られるため、オリジナルの半分以下の時間で生成できる。
推奨パラメータ
CFG: 1.0〜1.8(高くするとプロンプト追従性が上がる)
ステップ数: 10(プレビュー)、15〜20(安定品質)
サンプラー: Euler, simple, res_m
LoRA Weight: 0.6〜1.0
蒸留モデルの比較: Schnell vs Distilled
FLUX.2 Klein記事で「蒸留すると多様性が落ちる」という話を書いた。FLUX.1 Schnellがその典型例。
| モデル | アプローチ | 多様性 | 速度 |
|---|---|---|---|
| FLUX.2 Klein | 蒸留なしでパラメータ削減 | ◎ | やや遅い |
| FLUX.1 Schnell | 蒸留で高速化 | △ | 速い |
| Z-Image-Distilled | 蒸留で高速化 | ○ | 速い |
Z-Image-Distilledは「蒸留しても多様性を維持できた」という主張。実際、LoRA学習との相性が良いことからも、ベースモデルとしての柔軟性が保たれていることがわかる。
Turboより若干遅いが、多様性とLoRA互換性を重視するなら選択肢になる。
M1 Max 64GBで動くか
結論: 動く。余裕がある。
要件
- Z-Image Turbo(bf16): 12〜16GB VRAM
- Z-Image-Distilledも同等と推定
M1 Max 64GBの場合
| 項目 | 状況 |
|---|---|
| 統合メモリ | 64GB |
| GPU利用可能 | 約48GB(75%制限) |
| モデル要件 | 12〜16GB |
| 余裕 | 十分 |
FLUX.2 Klein(29GB要件)より大幅に軽い。
さらに軽量化する方法
どうしてもメモリが足りない場合:
- GGUF量子化: 6GB VRAMでも動作可能
- stable-diffusion.cpp: 4GB VRAMでも動く純C++実装
M1 Max 64GBなら量子化なしのフルモデルで問題ない。
既知の制限
テキスト描画の劣化
蒸留の影響で、画像内のテキスト(特に小さい文字)の品質が落ちている。ロゴや看板を生成する用途には向かない。
色かぶり
一部のサンプラーで青みが強く出る場合がある。サンプラーを変えるか、プロンプトで調整する。
ComfyUIでの使用
ComfyUI互換。レイヤープレフィックスは model.diffusion_model。
中国語・英語プロンプトの両方に対応。