技術 約6分で読めます

Qwen-Image-2.0-Proは今のところAPI側の強化に見える

いけさん目次

Qwen公式Xで、Qwen-Image-2.0-Proの 2026-04-22 版が出たらしい。
ModelScopeのデモとAlibaba Cloud Model StudioのAPIが案内されていて、売りは画像品質、多言語テキスト描画、指示追従、スタイル間の安定性。

まず気になったのは「これはオープンウェイトなのか?」だった。
2026年4月25日時点では、少なくとも公式のHugging Faceには見当たらない。

curl -s 'https://huggingface.co/api/models?author=Qwen&search=Qwen-Image' \
  | jq -r '.[].modelId'

出てくるのは以下だった。

  • Qwen/Qwen-Image-Edit-2511
  • Qwen/Qwen-Image-2512
  • Qwen/Qwen-Image
  • Qwen/Qwen-Image-Layered
  • Qwen/Qwen-Image-Edit
  • Qwen/Qwen-Image-Edit-2509

Qwen-Image-2.0Qwen-Image-2.0-Pro の公式ウェイトは確認できない。
GitHubの QwenLM/Qwen-Image には2月10日のQwen-Image-2.0告知はあるが、Quick Startの対象は Qwen/Qwen-Image-2512Qwen/Qwen-Image-Edit-2511 のままだった。

2.0-Proは2026-04-22スナップショット

ArenaのText-to-Imageリーダーボードでは、qwen-image-2.0-pro-2026-04-22 が総合9位に入っている。
2026年4月22日時点のリーダーボードで、スコアは 1168±8、票数は5122、表示はPreliminary。
ライセンス欄はAlibabaのProprietary扱いだった。

近い順位にはこういうモデルが並ぶ。

順位モデルスコア
1gpt-image-2 (medium)1507±9
2gemini-3.1-flash-image-preview1271±5
9qwen-image-2.0-pro-2026-04-221168±8
20qwen-image-25121133±4
25qwen-image-2.0-2026-03-031117±5
34z-image-turbo1083±6

ここだけ見ると、今回のProはQwen-Image-2512や3月版Qwen-Image-2.0より上に出ている。
ただし票数がまだ少なく、Preliminaryなので順位は動く。

GPT-Image-2がArenaに出ていた話を書いたときにも感じたが、2026年春の画像生成はArenaでの短期順位変動がかなり激しい。
総合9位は十分強いが、1位のGPT-Image-2とはスコア差が大きい。

Qwen-Image系の中ではローカル路線から少し離れている

このブログではこれまで、Qwen-Image-Edit-2511のローカル環境RunPodでの動かし方ポーズ・角度制御の改善Qwen-Image-Layeredでの顔パーツ分離など、Qwen Image Edit系をローカルやRunPodで動かす話を何度か書いてきた。
どれも「ウェイトを落として、ComfyUIやdiffusersで回す」方向の話だった。
Qwen-Image-2.0-Proは今のところ、ModelScopeのデモかAlibaba Cloud Model Studio APIで使うモデルとして扱うのが自然だ。

Alibaba Cloudのドキュメントでも、画像生成モデルの表では qwen-image-2.0-pro はText-to-Imageと編集の両方に対応、最大6枚出力、最大解像度2048x2048とされている。
Model Studioのテキストから画像生成ドキュメントでは、複雑な文字描画には qwen-image-2.0-pro または wan2.6-t2i を使う、という選び方になっている。

WanとZ-Imageとの住み分け

Alibaba Cloud側の推奨は、Qwen-Image一本推しではない。
画像生成と編集のモデル選択ページでは、まず wan2.7-image-pro を推奨し、Qwen-Image-2.0-Proは「ネガティブプロンプトが必要」「1回で最大6枚のバリエーションが必要」な場合に挙げている。

同じ表では、z-image-turbo は高速・低コスト・リアルなポートレートや商品写真向け。
以前書いた Z-Imageの記事 ではオープンソース系の軽さに注目したが、Alibaba Cloud上ではZ-Image-TurboはAPIの安い生成モデルという位置づけにもなっている。

モデル位置づけ最大出力価格
qwen-image-2.0-pro文字描画、編集、ネガティブプロンプト、最大6枚60.075ドル/枚
qwen-image-2.0Proより速い標準版60.035ドル/枚
z-image-turbo高速・低コスト生成10.015ドル/枚、prompt rewrite有効時0.03ドル/枚
wan2.6-t2iWan系の画像生成40.03ドル/枚

Qwen-Image-2.0-Proは標準版の約2.1倍、Z-Image-Turboの2.5〜5倍。
安く大量に試すモデルというより、文字入りポスター、PPT風の画像、漫画、編集込みの生成で品質を優先する枠だと思う。

APIとして見るなら悪くないが、ローカル勢には待ち

API呼び出しは model="qwen-image-2.0-pro" で、negative_promptprompt_extendsize を指定できる。
Qwen-Image-2.0系はカスタム幅・高さに対応し、総ピクセル数は512x512から2048x2048の範囲。
テキストから画像生成ではデフォルト2048x2048、編集APIでは入力画像寄りのアスペクト比で約1024x1024相当がデフォルトになる。

これはプロダクトに組み込むなら分かりやすい。
1枚0.075ドルなら、試作や少量生成ではRunPodを起動してモデルを管理するより楽な場面も多い。

一方で、Qwen Image EditをMacやRunPodでいじっていた側から見ると、まだ別物。
LoRA、ControlNet、ComfyUIワークフロー、ローカル量子化、バッチ処理の自由度は、ウェイトが出ていない限り手元には来ない。

APIで文字入り画像や編集を試すならQwen-Image-2.0-Proは候補に入るが、コスト優先なら qwen-image-2.0z-image-turbo を先に試すほうがいい。
ローカルでキャラ維持やLoRA運用をしたいなら、まだ Qwen-Image-Edit-2511Qwen-Image-2512Qwen-Image-Layered 側を見ることになる。
Proのオープンウェイト化は今のところ確認できないので、今回のリリースは「Qwenの画像生成がまたオープンで来た」というより「Qwen-Image 2.0のAPI版ProがArena上でかなり上に来た」と見るほうが外さなそうだ。

GPT-Image-2、Grok Imagine、Nano Bananaとの価格差

Qwen-Image-2.0-Proの1枚0.075ドルは他社と比べてどのあたりか。
2026年4月時点の主要な画像生成APIの1枚あたり価格を並べた。

モデル提供元1枚あたり概算備考
GPT-Image-2 (low)OpenAI約0.006ドルトークン課金、1024x1024
Z-Image-TurboAlibaba0.015ドルprompt rewrite有で0.03ドル
Grok Imagine StandardxAI0.02ドル
Qwen-Image-2.0Alibaba0.035ドル
GPT-Image-2 (medium)OpenAI約0.053ドル1024x1024
Nano Banana 2 (1K)Google0.067ドルGemini 3.1 Flash Image
Grok Imagine ProxAI0.07ドル
Qwen-Image-2.0-ProAlibaba0.075ドル最大2048x2048
Nano Banana 2 (2K)Google0.101ドル
Nano Banana Pro (1K-2K)Google0.134ドルGemini 3 Pro Image
GPT-Image-2 (high)OpenAI約0.211ドル1024x1024
Nano Banana Pro (4K)Google0.24ドル

GPT-Image-2はトークン課金なので、品質をlow / medium / highで変えると1枚あたりのコストに大きな差が出る。
Arena 1位の実力はmedium以上で出ていると思われるので、実用ラインはmediumの約0.053ドルあたり。

Grok Imagine Standardは1枚0.02ドルで、Imagen 4 Fastと並ぶ最安クラス。
xAIが2026年1月にAPI公開したモデルで、Pro版は0.07ドルとQwen-Image-2.0-Proに近い価格帯。
ArenaのText-to-Imageリーダーボードにはまだ載っていないので、品質はArena上では比較できない。

Nano Banana 2(API ID: gemini-3.1-flash-image-preview)はArena Text-to-Image 2位のモデル。
1K解像度で0.067ドル/枚、2Kで0.101ドル。
Qwen-Image-2.0-Proの0.075ドルとほぼ同じ価格帯だが、Arena順位はNano Banana 2のほうがかなり上。
Nano Banana Pro(gemini-3-pro-image-preview)は4K出力に対応する代わりに、1K-2Kでも0.134ドルと高い。

OpenAIとGoogleはBatch APIで50%オフが使える。
GPT-Image-2 mediumをBatchで回すと約0.027ドル/枚、Nano Banana 2 (1K)のBatchで0.034ドル/枚になるので、大量に回すならBatch割引前提で計算したほうがいい。

参考