Qwen-Image-2.0-Proは今のところAPI側の強化に見える
目次
Qwen公式Xで、Qwen-Image-2.0-Proの 2026-04-22 版が出たらしい。
ModelScopeのデモとAlibaba Cloud Model StudioのAPIが案内されていて、売りは画像品質、多言語テキスト描画、指示追従、スタイル間の安定性。
まず気になったのは「これはオープンウェイトなのか?」だった。
2026年4月25日時点では、少なくとも公式のHugging Faceには見当たらない。
curl -s 'https://huggingface.co/api/models?author=Qwen&search=Qwen-Image' \
| jq -r '.[].modelId'
出てくるのは以下だった。
Qwen/Qwen-Image-Edit-2511Qwen/Qwen-Image-2512Qwen/Qwen-ImageQwen/Qwen-Image-LayeredQwen/Qwen-Image-EditQwen/Qwen-Image-Edit-2509
Qwen-Image-2.0 や Qwen-Image-2.0-Pro の公式ウェイトは確認できない。
GitHubの QwenLM/Qwen-Image には2月10日のQwen-Image-2.0告知はあるが、Quick Startの対象は Qwen/Qwen-Image-2512 と Qwen/Qwen-Image-Edit-2511 のままだった。
2.0-Proは2026-04-22スナップショット
ArenaのText-to-Imageリーダーボードでは、qwen-image-2.0-pro-2026-04-22 が総合9位に入っている。
2026年4月22日時点のリーダーボードで、スコアは 1168±8、票数は5122、表示はPreliminary。
ライセンス欄はAlibabaのProprietary扱いだった。
近い順位にはこういうモデルが並ぶ。
| 順位 | モデル | スコア |
|---|---|---|
| 1 | gpt-image-2 (medium) | 1507±9 |
| 2 | gemini-3.1-flash-image-preview | 1271±5 |
| 9 | qwen-image-2.0-pro-2026-04-22 | 1168±8 |
| 20 | qwen-image-2512 | 1133±4 |
| 25 | qwen-image-2.0-2026-03-03 | 1117±5 |
| 34 | z-image-turbo | 1083±6 |
ここだけ見ると、今回のProはQwen-Image-2512や3月版Qwen-Image-2.0より上に出ている。
ただし票数がまだ少なく、Preliminaryなので順位は動く。
GPT-Image-2がArenaに出ていた話を書いたときにも感じたが、2026年春の画像生成はArenaでの短期順位変動がかなり激しい。
総合9位は十分強いが、1位のGPT-Image-2とはスコア差が大きい。
Qwen-Image系の中ではローカル路線から少し離れている
このブログではこれまで、Qwen-Image-Edit-2511のローカル環境やRunPodでの動かし方、ポーズ・角度制御の改善、Qwen-Image-Layeredでの顔パーツ分離など、Qwen Image Edit系をローカルやRunPodで動かす話を何度か書いてきた。
どれも「ウェイトを落として、ComfyUIやdiffusersで回す」方向の話だった。
Qwen-Image-2.0-Proは今のところ、ModelScopeのデモかAlibaba Cloud Model Studio APIで使うモデルとして扱うのが自然だ。
Alibaba Cloudのドキュメントでも、画像生成モデルの表では qwen-image-2.0-pro はText-to-Imageと編集の両方に対応、最大6枚出力、最大解像度2048x2048とされている。
Model Studioのテキストから画像生成ドキュメントでは、複雑な文字描画には qwen-image-2.0-pro または wan2.6-t2i を使う、という選び方になっている。
WanとZ-Imageとの住み分け
Alibaba Cloud側の推奨は、Qwen-Image一本推しではない。
画像生成と編集のモデル選択ページでは、まず wan2.7-image-pro を推奨し、Qwen-Image-2.0-Proは「ネガティブプロンプトが必要」「1回で最大6枚のバリエーションが必要」な場合に挙げている。
同じ表では、z-image-turbo は高速・低コスト・リアルなポートレートや商品写真向け。
以前書いた Z-Imageの記事 ではオープンソース系の軽さに注目したが、Alibaba Cloud上ではZ-Image-TurboはAPIの安い生成モデルという位置づけにもなっている。
| モデル | 位置づけ | 最大出力 | 価格 |
|---|---|---|---|
qwen-image-2.0-pro | 文字描画、編集、ネガティブプロンプト、最大6枚 | 6 | 0.075ドル/枚 |
qwen-image-2.0 | Proより速い標準版 | 6 | 0.035ドル/枚 |
z-image-turbo | 高速・低コスト生成 | 1 | 0.015ドル/枚、prompt rewrite有効時0.03ドル/枚 |
wan2.6-t2i | Wan系の画像生成 | 4 | 0.03ドル/枚 |
Qwen-Image-2.0-Proは標準版の約2.1倍、Z-Image-Turboの2.5〜5倍。
安く大量に試すモデルというより、文字入りポスター、PPT風の画像、漫画、編集込みの生成で品質を優先する枠だと思う。
APIとして見るなら悪くないが、ローカル勢には待ち
API呼び出しは model="qwen-image-2.0-pro" で、negative_prompt、prompt_extend、size を指定できる。
Qwen-Image-2.0系はカスタム幅・高さに対応し、総ピクセル数は512x512から2048x2048の範囲。
テキストから画像生成ではデフォルト2048x2048、編集APIでは入力画像寄りのアスペクト比で約1024x1024相当がデフォルトになる。
これはプロダクトに組み込むなら分かりやすい。
1枚0.075ドルなら、試作や少量生成ではRunPodを起動してモデルを管理するより楽な場面も多い。
一方で、Qwen Image EditをMacやRunPodでいじっていた側から見ると、まだ別物。
LoRA、ControlNet、ComfyUIワークフロー、ローカル量子化、バッチ処理の自由度は、ウェイトが出ていない限り手元には来ない。
APIで文字入り画像や編集を試すならQwen-Image-2.0-Proは候補に入るが、コスト優先なら qwen-image-2.0 や z-image-turbo を先に試すほうがいい。
ローカルでキャラ維持やLoRA運用をしたいなら、まだ Qwen-Image-Edit-2511 や Qwen-Image-2512、Qwen-Image-Layered 側を見ることになる。
Proのオープンウェイト化は今のところ確認できないので、今回のリリースは「Qwenの画像生成がまたオープンで来た」というより「Qwen-Image 2.0のAPI版ProがArena上でかなり上に来た」と見るほうが外さなそうだ。
GPT-Image-2、Grok Imagine、Nano Bananaとの価格差
Qwen-Image-2.0-Proの1枚0.075ドルは他社と比べてどのあたりか。
2026年4月時点の主要な画像生成APIの1枚あたり価格を並べた。
| モデル | 提供元 | 1枚あたり概算 | 備考 |
|---|---|---|---|
| GPT-Image-2 (low) | OpenAI | 約0.006ドル | トークン課金、1024x1024 |
| Z-Image-Turbo | Alibaba | 0.015ドル | prompt rewrite有で0.03ドル |
| Grok Imagine Standard | xAI | 0.02ドル | |
| Qwen-Image-2.0 | Alibaba | 0.035ドル | |
| GPT-Image-2 (medium) | OpenAI | 約0.053ドル | 1024x1024 |
| Nano Banana 2 (1K) | 0.067ドル | Gemini 3.1 Flash Image | |
| Grok Imagine Pro | xAI | 0.07ドル | |
| Qwen-Image-2.0-Pro | Alibaba | 0.075ドル | 最大2048x2048 |
| Nano Banana 2 (2K) | 0.101ドル | ||
| Nano Banana Pro (1K-2K) | 0.134ドル | Gemini 3 Pro Image | |
| GPT-Image-2 (high) | OpenAI | 約0.211ドル | 1024x1024 |
| Nano Banana Pro (4K) | 0.24ドル |
GPT-Image-2はトークン課金なので、品質をlow / medium / highで変えると1枚あたりのコストに大きな差が出る。
Arena 1位の実力はmedium以上で出ていると思われるので、実用ラインはmediumの約0.053ドルあたり。
Grok Imagine Standardは1枚0.02ドルで、Imagen 4 Fastと並ぶ最安クラス。
xAIが2026年1月にAPI公開したモデルで、Pro版は0.07ドルとQwen-Image-2.0-Proに近い価格帯。
ArenaのText-to-Imageリーダーボードにはまだ載っていないので、品質はArena上では比較できない。
Nano Banana 2(API ID: gemini-3.1-flash-image-preview)はArena Text-to-Image 2位のモデル。
1K解像度で0.067ドル/枚、2Kで0.101ドル。
Qwen-Image-2.0-Proの0.075ドルとほぼ同じ価格帯だが、Arena順位はNano Banana 2のほうがかなり上。
Nano Banana Pro(gemini-3-pro-image-preview)は4K出力に対応する代わりに、1K-2Kでも0.134ドルと高い。
OpenAIとGoogleはBatch APIで50%オフが使える。
GPT-Image-2 mediumをBatchで回すと約0.027ドル/枚、Nano Banana 2 (1K)のBatchで0.034ドル/枚になるので、大量に回すならBatch割引前提で計算したほうがいい。