Z-Image — FLUXを超えたと言われるAlibaba発の画像生成AI
2026年1月28日、Alibabaの通義(Tongyi-MAI)チームが画像生成AIの基盤モデル Z-Image を公開した。2025年11月に先行リリースされていたZ-Image-Turboの元モデルにあたる。Apache 2.0ライセンスで、Hugging Face上でウェイトが公開されている。
「FLUXを王座から引きずり下ろした」という評価が海外コミュニティで飛び交っていて、気になったので調べた。
Z-Imageの基本スペック
- アーキテクチャ: Single-Stream Diffusion Transformer (S3-DiT)
- パラメータ数: 60億 (6B)
- 対応解像度: 512×512 〜 2048×2048(任意のアスペクト比)
- 推論ステップ: 28〜50
- ガイダンススケール: 3.0〜5.0
- 最低VRAM: 量子化で6GB(RTX 2060世代でも動作)
- ライセンス: Apache 2.0(商用利用可)
FLUXがHybrid-Stream DiT(テキストと画像を別々に処理してから統合)を採用しているのに対し、Z-Imageはテキスト埋め込みとノイズ画像を最初から単一シーケンスで処理するSingle-Stream方式を採る。これがパラメータ効率の良さにつながっている。
Z-Image シリーズの構成
Z-Imageシリーズは4つのモデルで構成される。
| モデル | 用途 |
|---|---|
| Z-Image | 基盤モデル。ファインチューニング・LoRA作成向け |
| Z-Image-Turbo | Z-Imageを蒸留+RLHFで高速化。8ステップで生成可能 |
| Z-Image-Omni-Base | マルチモーダル対応の基盤モデル |
| Z-Image-Edit | 指示ベースの画像編集モデル |
Z-Image vs Z-Image-Turbo
同じシリーズだが性格はかなり違う。
| Z-Image | Z-Image-Turbo | |
|---|---|---|
| 推論ステップ | 28〜50 | 8 |
| ネガティブプロンプト | 対応 | 非対応 |
| 生成多様性 | 高い | やや低い |
| ファインチューニング適性 | 高い(LoRA, ControlNet) | 低い |
| 画質 | 高い | 非常に高い |
| 用途 | カスタムモデル開発、研究 | 高速な画像生成 |
Turboは蒸留モデルなので速いが、カスタマイズ性は犠牲になっている。LoRAを焼いたりControlNetを使いたい場合はZ-Image一択。
Z-Image vs FLUX vs Stable Diffusion 3.5
ここが本題。2026年1月時点でのオープンソース画像生成AIの比較。
| Z-Image | FLUX.1 | SD 3.5 | |
|---|---|---|---|
| 開発元 | Alibaba (Tongyi-MAI) | Black Forest Labs | Stability AI |
| パラメータ数 | 6B | 12B | 8B |
| アーキテクチャ | Single-Stream DiT | Hybrid-Stream DiT | MM-DiT |
| 最低VRAM | 6GB(量子化) | 24GB+ | 12GB+ |
| ライセンス | Apache 2.0 | Dev: 非商用 / Pro: 商用 | Stability AI Community |
| CFG | フルサポート | Devは非対応 | サポート |
| ネガティブプロンプト | 対応 | Dev: 非対応 / Pro: 対応 | 対応 |
| Elo順位(AI Arena) | オープンソース1位 | 下位 | 圏外 |
VRAM要件が圧倒的に軽い
Z-Imageの最大の強みはここ。FLUXはフルモデルで24GB以上、量子化しても12GB程度必要で、RTX 3060やRTX 4060では厳しい。Z-Imageは量子化で6GBまで落とせるため、RTX 2060世代のGPUでも30秒程度で画像生成できる。
ベンチマーク
Alibaba AI ArenaのEloベース評価で、Z-Image-Turboはオープンソースモデル1位を獲得。GPT Image 1(OpenAI)、FLUX.1 Kontext Pro、Ideogram 3.0を上回り、Google Imagen 4とByteDance Seedreamに次ぐグローバル4位。
基盤モデルのZ-Image自体も「10倍大きいモデルに匹敵する性能」と公式が主張していて、パラメータ効率の面では確かに突出している。
エコシステムの未成熟さ
一方で弱点もある。Stable DiffusionやFLUXと比べると、サードパーティツール・コミュニティモデル・チュートリアルの蓄積が圧倒的に少ない。ただしリリース直後からLoRAの作成ペースがFLUXを上回っているという報告もあり、この差は急速に縮まりそうではある。
導入方法
diffusers(Python)
import torch
from diffusers import ZImagePipeline
pipe = ZImagePipeline.from_pretrained(
"Tongyi-MAI/Z-Image",
torch_dtype=torch.bfloat16,
)
pipe.to("cuda")
image = pipe(
prompt="a cat sitting on a windowsill at sunset",
height=1024,
width=1024,
num_inference_steps=50,
guidance_scale=4,
generator=torch.Generator("cuda").manual_seed(42),
).images[0]
image.save("output.png")
ComfyUI
リリース初日からComfyUIがネイティブサポートしている。ComfyUI Managerからインストール可能。