Z-Image — FLUXを超えたと言われるAlibaba発の画像生成AI

2026年1月28日、Alibabaの通義(Tongyi-MAI)チームが画像生成AIの基盤モデル Z-Image を公開した。2025年11月に先行リリースされていたZ-Image-Turboの元モデルにあたる。Apache 2.0ライセンスで、Hugging Face上でウェイトが公開されている。

「FLUXを王座から引きずり下ろした」という評価が海外コミュニティで飛び交っていて、気になったので調べた。

Z-Imageの基本スペック

アーキテクチャ: Single-Stream Diffusion Transformer (S3-DiT)
パラメータ数: 60億 (6B)
対応解像度: 512×512 〜 2048×2048（任意のアスペクト比）
推論ステップ: 28〜50
ガイダンススケール: 3.0〜5.0
最低VRAM: 量子化で6GB（RTX 2060世代でも動作）
ライセンス: Apache 2.0（商用利用可）

FLUXがHybrid-Stream DiT（テキストと画像を別々に処理してから統合）を採用しているのに対し、Z-Imageはテキスト埋め込みとノイズ画像を最初から単一シーケンスで処理するSingle-Stream方式を採る。これがパラメータ効率の良さにつながっている。

Z-Image シリーズの構成

Z-Imageシリーズは4つのモデルで構成される。

モデル	用途
Z-Image	基盤モデル。ファインチューニング・LoRA作成向け
Z-Image-Turbo	Z-Imageを蒸留+RLHFで高速化。8ステップで生成可能
Z-Image-Omni-Base	マルチモーダル対応の基盤モデル
Z-Image-Edit	指示ベースの画像編集モデル

Z-Image vs Z-Image-Turbo

同じシリーズだが性格はかなり違う。

	Z-Image	Z-Image-Turbo
推論ステップ	28〜50	8
ネガティブプロンプト	対応	非対応
生成多様性	高い	やや低い
ファインチューニング適性	高い（LoRA, ControlNet）	低い
画質	高い	非常に高い
用途	カスタムモデル開発、研究	高速な画像生成

Turboは蒸留モデルなので速いが、カスタマイズ性は犠牲になっている。LoRAを焼いたりControlNetを使いたい場合はZ-Image一択。

Z-Image vs FLUX vs Stable Diffusion 3.5

ここが本題。2026年1月時点でのオープンソース画像生成AIの比較。

	Z-Image	FLUX.1	SD 3.5
開発元	Alibaba (Tongyi-MAI)	Black Forest Labs	Stability AI
パラメータ数	6B	12B	8B
アーキテクチャ	Single-Stream DiT	Hybrid-Stream DiT	MM-DiT
最低VRAM	6GB（量子化）	24GB+	12GB+
ライセンス	Apache 2.0	Dev: 非商用 / Pro: 商用	Stability AI Community
CFG	フルサポート	Devは非対応	サポート
ネガティブプロンプト	対応	Dev: 非対応 / Pro: 対応	対応
Elo順位（AI Arena）	オープンソース1位	下位	圏外

VRAM要件が圧倒的に軽い

Z-Imageの最大の強みはここ。FLUXはフルモデルで24GB以上、量子化しても12GB程度必要で、RTX 3060やRTX 4060では厳しい。Z-Imageは量子化で6GBまで落とせるため、RTX 2060世代のGPUでも30秒程度で画像生成できる。

ベンチマーク

Alibaba AI ArenaのEloベース評価で、Z-Image-Turboはオープンソースモデル1位を獲得。GPT Image 1（OpenAI）、FLUX.1 Kontext Pro、Ideogram 3.0を上回り、Google Imagen 4とByteDance Seedreamに次ぐグローバル4位。

基盤モデルのZ-Image自体も「10倍大きいモデルに匹敵する性能」と公式が主張していて、パラメータ効率の面では確かに突出している。

エコシステムの未成熟さ

一方で弱点もある。Stable DiffusionやFLUXと比べると、サードパーティツール・コミュニティモデル・チュートリアルの蓄積が圧倒的に少ない。ただしリリース直後からLoRAの作成ペースがFLUXを上回っているという報告もあり、この差は急速に縮まりそうではある。

導入方法

diffusers（Python）

import torch
from diffusers import ZImagePipeline

pipe = ZImagePipeline.from_pretrained(
    "Tongyi-MAI/Z-Image",
    torch_dtype=torch.bfloat16,
)
pipe.to("cuda")

image = pipe(
    prompt="a cat sitting on a windowsill at sunset",
    height=1024,
    width=1024,
    num_inference_steps=50,
    guidance_scale=4,
    generator=torch.Generator("cuda").manual_seed(42),
).images[0]

image.save("output.png")

ComfyUI

リリース初日からComfyUIがネイティブサポートしている。ComfyUI Managerからインストール可能。