Qwen-Image-2.0-Proは今のところAPI側の強化に見える

Qwen公式Xで、Qwen-Image-2.0-Proの 2026-04-22 版が出たらしい。
ModelScopeのデモとAlibaba Cloud Model StudioのAPIが案内されていて、売りは画像品質、多言語テキスト描画、指示追従、スタイル間の安定性。

まず気になったのは「これはオープンウェイトなのか？」だった。
2026年4月25日時点では、少なくとも公式のHugging Faceには見当たらない。

curl -s 'https://huggingface.co/api/models?author=Qwen&search=Qwen-Image' \
  | jq -r '.[].modelId'

出てくるのは以下だった。

Qwen/Qwen-Image-Edit-2511
Qwen/Qwen-Image-2512
Qwen/Qwen-Image
Qwen/Qwen-Image-Layered
Qwen/Qwen-Image-Edit
Qwen/Qwen-Image-Edit-2509

Qwen-Image-2.0 や Qwen-Image-2.0-Pro の公式ウェイトは確認できない。
GitHubの QwenLM/Qwen-Image には2月10日のQwen-Image-2.0告知はあるが、Quick Startの対象は Qwen/Qwen-Image-2512 と Qwen/Qwen-Image-Edit-2511 のままだった。

2.0-Proは2026-04-22スナップショット

ArenaのText-to-Imageリーダーボードでは、qwen-image-2.0-pro-2026-04-22 が総合9位に入っている。
2026年4月22日時点のリーダーボードで、スコアは 1168±8、票数は5122、表示はPreliminary。
ライセンス欄はAlibabaのProprietary扱いだった。

近い順位にはこういうモデルが並ぶ。

順位	モデル	スコア
1	`gpt-image-2 (medium)`	1507±9
2	`gemini-3.1-flash-image-preview`	1271±5
9	`qwen-image-2.0-pro-2026-04-22`	1168±8
20	`qwen-image-2512`	1133±4
25	`qwen-image-2.0-2026-03-03`	1117±5
34	`z-image-turbo`	1083±6

ここだけ見ると、今回のProはQwen-Image-2512や3月版Qwen-Image-2.0より上に出ている。
ただし票数がまだ少なく、Preliminaryなので順位は動く。

GPT-Image-2がArenaに出ていた話を書いたときにも感じたが、2026年春の画像生成はArenaでの短期順位変動がかなり激しい。
総合9位は十分強いが、1位のGPT-Image-2とはスコア差が大きい。

Qwen-Image系の中ではローカル路線から少し離れている

このブログではこれまで、Qwen-Image-Edit-2511のローカル環境やRunPodでの動かし方、ポーズ・角度制御の改善、Qwen-Image-Layeredでの顔パーツ分離など、Qwen Image Edit系をローカルやRunPodで動かす話を何度か書いてきた。
どれも「ウェイトを落として、ComfyUIやdiffusersで回す」方向の話だった。
Qwen-Image-2.0-Proは今のところ、ModelScopeのデモかAlibaba Cloud Model Studio APIで使うモデルとして扱うのが自然だ。

Alibaba Cloudのドキュメントでも、画像生成モデルの表では qwen-image-2.0-pro はText-to-Imageと編集の両方に対応、最大6枚出力、最大解像度2048x2048とされている。
Model Studioのテキストから画像生成ドキュメントでは、複雑な文字描画には qwen-image-2.0-pro または wan2.6-t2i を使う、という選び方になっている。

WanとZ-Imageとの住み分け

Alibaba Cloud側の推奨は、Qwen-Image一本推しではない。
画像生成と編集のモデル選択ページでは、まず wan2.7-image-pro を推奨し、Qwen-Image-2.0-Proは「ネガティブプロンプトが必要」「1回で最大6枚のバリエーションが必要」な場合に挙げている。

同じ表では、z-image-turbo は高速・低コスト・リアルなポートレートや商品写真向け。
以前書いた Z-Imageの記事ではオープンソース系の軽さに注目したが、Alibaba Cloud上ではZ-Image-TurboはAPIの安い生成モデルという位置づけにもなっている。

モデル	位置づけ	最大出力	価格
`qwen-image-2.0-pro`	文字描画、編集、ネガティブプロンプト、最大6枚	6	0.075ドル/枚
`qwen-image-2.0`	Proより速い標準版	6	0.035ドル/枚
`z-image-turbo`	高速・低コスト生成	1	0.015ドル/枚、prompt rewrite有効時0.03ドル/枚
`wan2.6-t2i`	Wan系の画像生成	4	0.03ドル/枚

Qwen-Image-2.0-Proは標準版の約2.1倍、Z-Image-Turboの2.5〜5倍。
安く大量に試すモデルというより、文字入りポスター、PPT風の画像、漫画、編集込みの生成で品質を優先する枠だと思う。

APIとして見るなら悪くないが、ローカル勢には待ち

API呼び出しは model="qwen-image-2.0-pro" で、negative_prompt、prompt_extend、size を指定できる。
Qwen-Image-2.0系はカスタム幅・高さに対応し、総ピクセル数は512x512から2048x2048の範囲。
テキストから画像生成ではデフォルト2048x2048、編集APIでは入力画像寄りのアスペクト比で約1024x1024相当がデフォルトになる。

これはプロダクトに組み込むなら分かりやすい。
1枚0.075ドルなら、試作や少量生成ではRunPodを起動してモデルを管理するより楽な場面も多い。

一方で、Qwen Image EditをMacやRunPodでいじっていた側から見ると、まだ別物。
LoRA、ControlNet、ComfyUIワークフロー、ローカル量子化、バッチ処理の自由度は、ウェイトが出ていない限り手元には来ない。

APIで文字入り画像や編集を試すならQwen-Image-2.0-Proは候補に入るが、コスト優先なら qwen-image-2.0 や z-image-turbo を先に試すほうがいい。
ローカルでキャラ維持やLoRA運用をしたいなら、まだ Qwen-Image-Edit-2511 や Qwen-Image-2512、Qwen-Image-Layered 側を見ることになる。
Proのオープンウェイト化は今のところ確認できないので、今回のリリースは「Qwenの画像生成がまたオープンで来た」というより「Qwen-Image 2.0のAPI版ProがArena上でかなり上に来た」と見るほうが外さなそうだ。

GPT-Image-2、Grok Imagine、Nano Bananaとの価格差

Qwen-Image-2.0-Proの1枚0.075ドルは他社と比べてどのあたりか。
2026年4月時点の主要な画像生成APIの1枚あたり価格を並べた。

モデル	提供元	1枚あたり概算	備考
GPT-Image-2 (low)	OpenAI	約0.006ドル	トークン課金、1024x1024
Z-Image-Turbo	Alibaba	0.015ドル	prompt rewrite有で0.03ドル
Grok Imagine Standard	xAI	0.02ドル
Qwen-Image-2.0	Alibaba	0.035ドル
GPT-Image-2 (medium)	OpenAI	約0.053ドル	1024x1024
Nano Banana 2 (1K)	Google	0.067ドル	Gemini 3.1 Flash Image
Grok Imagine Pro	xAI	0.07ドル
Qwen-Image-2.0-Pro	Alibaba	0.075ドル	最大2048x2048
Nano Banana 2 (2K)	Google	0.101ドル
Nano Banana Pro (1K-2K)	Google	0.134ドル	Gemini 3 Pro Image
GPT-Image-2 (high)	OpenAI	約0.211ドル	1024x1024
Nano Banana Pro (4K)	Google	0.24ドル

GPT-Image-2はトークン課金なので、品質をlow / medium / highで変えると1枚あたりのコストに大きな差が出る。
Arena 1位の実力はmedium以上で出ていると思われるので、実用ラインはmediumの約0.053ドルあたり。

Grok Imagine Standardは1枚0.02ドルで、Imagen 4 Fastと並ぶ最安クラス。
xAIが2026年1月にAPI公開したモデルで、Pro版は0.07ドルとQwen-Image-2.0-Proに近い価格帯。
ArenaのText-to-Imageリーダーボードにはまだ載っていないので、品質はArena上では比較できない。

Nano Banana 2（API ID: gemini-3.1-flash-image-preview）はArena Text-to-Image 2位のモデル。
1K解像度で0.067ドル/枚、2Kで0.101ドル。
Qwen-Image-2.0-Proの0.075ドルとほぼ同じ価格帯だが、Arena順位はNano Banana 2のほうがかなり上。
Nano Banana Pro（gemini-3-pro-image-preview）は4K出力に対応する代わりに、1K-2Kでも0.134ドルと高い。

OpenAIとGoogleはBatch APIで50%オフが使える。
GPT-Image-2 mediumをBatchで回すと約0.027ドル/枚、Nano Banana 2 (1K)のBatchで0.034ドル/枚になるので、大量に回すならBatch割引前提で計算したほうがいい。