技術 約4分で読めます

Z-Image — FLUXを超えたと言われるAlibaba発の画像生成AI

2026年1月28日、Alibabaの通義(Tongyi-MAI)チームが画像生成AIの基盤モデル Z-Image を公開した。2025年11月に先行リリースされていたZ-Image-Turboの元モデルにあたる。Apache 2.0ライセンスで、Hugging Face上でウェイトが公開されている。

「FLUXを王座から引きずり下ろした」という評価が海外コミュニティで飛び交っていて、気になったので調べた。

Z-Imageの基本スペック

  • アーキテクチャ: Single-Stream Diffusion Transformer (S3-DiT)
  • パラメータ数: 60億 (6B)
  • 対応解像度: 512×512 〜 2048×2048(任意のアスペクト比)
  • 推論ステップ: 28〜50
  • ガイダンススケール: 3.0〜5.0
  • 最低VRAM: 量子化で6GB(RTX 2060世代でも動作)
  • ライセンス: Apache 2.0(商用利用可)

FLUXがHybrid-Stream DiT(テキストと画像を別々に処理してから統合)を採用しているのに対し、Z-Imageはテキスト埋め込みとノイズ画像を最初から単一シーケンスで処理するSingle-Stream方式を採る。これがパラメータ効率の良さにつながっている。

Z-Image シリーズの構成

Z-Imageシリーズは4つのモデルで構成される。

モデル用途
Z-Image基盤モデル。ファインチューニング・LoRA作成向け
Z-Image-TurboZ-Imageを蒸留+RLHFで高速化。8ステップで生成可能
Z-Image-Omni-Baseマルチモーダル対応の基盤モデル
Z-Image-Edit指示ベースの画像編集モデル

Z-Image vs Z-Image-Turbo

同じシリーズだが性格はかなり違う。

Z-ImageZ-Image-Turbo
推論ステップ28〜508
ネガティブプロンプト対応非対応
生成多様性高いやや低い
ファインチューニング適性高い(LoRA, ControlNet)低い
画質高い非常に高い
用途カスタムモデル開発、研究高速な画像生成

Turboは蒸留モデルなので速いが、カスタマイズ性は犠牲になっている。LoRAを焼いたりControlNetを使いたい場合はZ-Image一択。

Z-Image vs FLUX vs Stable Diffusion 3.5

ここが本題。2026年1月時点でのオープンソース画像生成AIの比較。

Z-ImageFLUX.1SD 3.5
開発元Alibaba (Tongyi-MAI)Black Forest LabsStability AI
パラメータ数6B12B8B
アーキテクチャSingle-Stream DiTHybrid-Stream DiTMM-DiT
最低VRAM6GB(量子化)24GB+12GB+
ライセンスApache 2.0Dev: 非商用 / Pro: 商用Stability AI Community
CFGフルサポートDevは非対応サポート
ネガティブプロンプト対応Dev: 非対応 / Pro: 対応対応
Elo順位(AI Arena)オープンソース1位下位圏外

VRAM要件が圧倒的に軽い

Z-Imageの最大の強みはここ。FLUXはフルモデルで24GB以上、量子化しても12GB程度必要で、RTX 3060やRTX 4060では厳しい。Z-Imageは量子化で6GBまで落とせるため、RTX 2060世代のGPUでも30秒程度で画像生成できる。

ベンチマーク

Alibaba AI ArenaのEloベース評価で、Z-Image-Turboはオープンソースモデル1位を獲得。GPT Image 1(OpenAI)、FLUX.1 Kontext Pro、Ideogram 3.0を上回り、Google Imagen 4とByteDance Seedreamに次ぐグローバル4位。

基盤モデルのZ-Image自体も「10倍大きいモデルに匹敵する性能」と公式が主張していて、パラメータ効率の面では確かに突出している。

エコシステムの未成熟さ

一方で弱点もある。Stable DiffusionやFLUXと比べると、サードパーティツール・コミュニティモデル・チュートリアルの蓄積が圧倒的に少ない。ただしリリース直後からLoRAの作成ペースがFLUXを上回っているという報告もあり、この差は急速に縮まりそうではある。

導入方法

diffusers(Python)

import torch
from diffusers import ZImagePipeline

pipe = ZImagePipeline.from_pretrained(
    "Tongyi-MAI/Z-Image",
    torch_dtype=torch.bfloat16,
)
pipe.to("cuda")

image = pipe(
    prompt="a cat sitting on a windowsill at sunset",
    height=1024,
    width=1024,
    num_inference_steps=50,
    guidance_scale=4,
    generator=torch.Generator("cuda").manual_seed(42),
).images[0]

image.save("output.png")

ComfyUI

リリース初日からComfyUIがネイティブサポートしている。ComfyUI Managerからインストール可能。

参考リンク