Z-Image（造相）をRunPodで動かせるか調べた — キャラ造形の安定性に期待

動機

Qwen-Image-EditをRunPodで動かしたばかりだが、2026年1月28日にAlibabaの同じTongyi系ラボからZ-Image（造相）のフル版が公開された。

サンプルを見ていて思ったのが、キャラクターの造形がかなり安定しているということ。Qwen-Image-Editでイラストを生成していると、顔や体型が崩れる場面がそこそこあった。Z-Imageはネガティブプロンプト対応・CFG調整幅が広い・LoRA適性が高いとされていて、キャラを保ったまま漫画風のイラストを安定して出せるんじゃないかと期待した。

で、今使ってるRunPod+ComfyUIの環境でそのまま動かせるのか調べてみた。

Z-Imageとは

Alibaba Tongyi-MAIが開発した6Bパラメータの画像生成基盤モデル。Apache 2.0ライセンスで商用利用可能。

シリーズ構成

モデル	用途	特徴
Z-Image	基盤モデル	高品質・高多様性、ネガプロ対応、LoRA対応
Z-Image-Turbo	高速生成	8ステップ、サブ秒推論
Z-Image-Omni-Base	統合基盤	生成+編集、ファインチューニング用
Z-Image-Edit	画像編集	編集特化

アーキテクチャ

S3-DiT（Scalable Single-Stream Diffusion Transformer）
Flow Matchingベース
テキストエンコーダ: Qwen 3 4B
FLUXが32Bパラメータなのに対し、Z-Imageは6Bで同等品質を達成
Artificial Analysisのリーダーボードでオープンソース1位

Qwen-Image-Editとの比較

キャラ造形の安定性の観点で気になる違いをまとめた。

	Z-Image	Qwen-Image-Edit
パラメータ数	6B	7B (Qwen2.5-VL-7B)
ネガティブプロンプト	対応	対応
CFG	3.0〜5.0	1.0
LoRA対応	公式サポート	可能（構成が複雑）
ControlNet	対応（Union版あり）	限定的
用途	txt2img / img2img	img2img / 画像編集
画風制御	cfg_normalizationで切替	プロンプト依存

CFGとネガティブプロンプトの差

Qwen-Image-EditはCFG 1.0固定でネガティブプロンプトの効きが弱め。Z-ImageはCFG 3.0〜5.0の範囲で調整可能で、ネガプロもしっかり効く。「bad anatomy, deformed」あたりのネガプロが効くかどうかはキャラの崩れに直結するので、ここは大きい。

cfg_normalizationオプション

Z-Image固有の設定で、Falseだとスタイリッシュ（イラスト・漫画寄り）、Trueだとリアリズム寄りの出力になる。漫画風のイラストを出したいならFalse一択。

LoRAでキャラ学習できる

Z-ImageはLoRA適性が公式に高いとされている。自分のキャラをLoRAで学習させれば、顔や体型を固定したまま様々なポーズ・構図で安定して出力できる。Qwen-Image-Editでも可能だが構成が複雑で、Z-Imageの方がエコシステムが整っている。

RunPod+ComfyUIで動かせるか

結論から言うと、Qwen NSFW版と同じ流れで動かせる。むしろ構成はZ-Imageの方がシンプル。

ハードウェア要件

GPU	Z-Image	Qwen NSFW (Phr00t AIO)
RTX 4090 (24GB)	動く（bf16で約12GB）	動かない（28GB必要）
RTX 5090 (32GB)	余裕で動く	ギリギリ動く

Z-Imageは6Bパラメータなので、RTX 4090でも余裕で動く。Qwen NSFW版ではRTX 4090で失敗してRTX 5090に逃げたが、Z-Imageなら4090で十分。コスト的にも$0.59/時間で済む。

ComfyUI対応状況

ComfyUIが初日からネイティブサポートしている。Qwen NSFW版のようにカスタムノード（TextEncodeQwenImageEditPlus）を入れたり、Phr00tの修正版nodes_qwen.pyを差し替える必要がない。

モデルファイル構成

ComfyUI/models/
├── text_encoders/
│   └── qwen_3_4b.safetensors
├── diffusion_models/
│   └── z_image_bf16.safetensors
└── vae/
    └── ae.safetensors

Qwen NSFW版のPhr00t AIOは28GBの単一ファイルだったが、Z-Imageは分離構成。ただし3ファイルで完結するのでシンプル。

セットアップ手順（想定）

Qwen NSFW版と同じ流れで書くとこうなる。

1. Pod作成

GPU: RTX 4090（24GB VRAM）で十分
テンプレート: runpod/comfyui:latest（標準テンプレートでOK）

RTX 5090+専用テンプレートが必要だったQwen NSFW版と違い、標準構成で動く。

2. モデルDL

pip install huggingface_hub

cd /workspace/ComfyUI/models

# Diffusion Model
python3 -c "
from huggingface_hub import hf_hub_download
hf_hub_download('Tongyi-MAI/Z-Image', 'z_image_bf16.safetensors', local_dir='./diffusion_models/')
"

# Text Encoder (Qwen 3 4B)
python3 -c "
from huggingface_hub import hf_hub_download
hf_hub_download('Tongyi-MAI/Z-Image', 'qwen_3_4b.safetensors', local_dir='./text_encoders/')
"

# VAE
python3 -c "
from huggingface_hub import hf_hub_download
hf_hub_download('Tongyi-MAI/Z-Image', 'ae.safetensors', local_dir='./vae/')
"

3. ComfyUIでの設定

サンプラー: euler / dpmpp_2m
スケジューラ: AuraFlow
ステップ数: 28〜50
CFG: 3.0〜5.0
解像度: 1024x1024推奨（512x512〜2048x2048対応）

カスタムノードのインストールは不要。ComfyUI標準ノードで動く。

img2imgのアプローチの違い

どちらもimg2imgはできるが、仕組みが違う。

Z-Image: 通常のdiffusionモデルのimg2img。入力画像にノイズを乗せてdenoiseする方式。denoise strengthで元画像の維持度を調整する
Qwen-Image-Edit: 画像編集モデル。入力画像のキャラを認識した上でプロンプトに従って編集する方式

キャラの造形を保ったまま漫画風イラストを出すなら、Z-Imageのimg2img + LoRAの組み合わせのほうが安定しそう。LoRAでキャラを学習させておけば、txt2imgでもimg2imgでもキャラが崩れにくくなる。

Qwen-Image-Editの画像編集アプローチは「この画像を○○に変えて」的な用途には直感的だが、キャラの一貫性を保ちながら複数枚出すとなるとバラつきが出やすい。

Z-Image-Editという画像編集特化モデルもシリーズにあるので、画像編集アプローチが必要な場面ではそちらも選択肢になる。

ControlNetで構図を固定できる

Z-Image-Turbo-Fun-Controlnet-Unionが公開されている。ControlNetがあればポーズ指定でキャラを崩さず生成できるので、同じキャラを色んなポーズで出したい場合に強い。

このブログの画像生成AI関連記事: