RunPodでQwen-Image-Edit-2511を動かす

前回の記事でQwen-Image-Edit-2511をローカルで動かすスペックを調べたら、RTX 4090が45万円、メモリ64GBで10万円超え。2026年1月現在、AI用PCを組むのは完全に時期が悪い。

ということで、クラウドGPU（RunPod）を使うことにした。RTX 4090が$0.34/時間（約51円）で、1回の画像生成が2〜3円程度。ライトユーザーなら圧倒的にクラウドのほうが安い。

Qwen-Image-Edit-2511とは

Qwen（通義千問）が公開した20Bパラメータの画像編集モデル。テキスト指示による画像編集、インペインティング、アウトペインティングに対応する。

今回使いたいのは fal/Qwen-Image-Edit-2511-Multiple-Angles-LoRA。96種類のカメラアングル（4仰角 × 8方位角 × 3距離）を指定して画像を再生成できるLoRA。3Dモデルの学習データから作られていて、キャラ画像を別アングルから見た絵に変換できる。

RunPodとは

クラウドGPUサービス。AWSやGCPより5〜6倍安く、ComfyUIテンプレートが用意されているので環境構築が楽。

GPU	Community Cloud	Spot（中断リスクあり）
RTX 4090	$0.34/時間（¥51）	約50%割引
RTX 3090	$0.22/時間（¥33）	約50%割引

必要なもの

RunPodアカウント
クレジットカードまたはPayPal（$10〜チャージ）
1〜2時間の作業時間（初回セットアップ）

Step 1: RunPodアカウント作成

https://www.runpod.io/ にアクセス
Sign Upでアカウント作成（Google/GitHub連携可）
左メニューのBilling → Add Creditsで$10程度チャージ

Step 2: Podを起動

左メニューのPods → + Deploy
GPU選択: RTX 4090（Community Cloud）
テンプレート検索欄に「ComfyUI」と入力して選択
Container Disk: 50GB
Volume Disk: 100GB（モデル保存用、次回以降も使い回せる）
Deployをクリック

起動まで1〜2分かかる。

Step 3: ComfyUIにアクセス

Pod一覧で起動したPodの「Connect」をクリック → HTTP Service (port 3000) でComfyUIが開く。

初回はデフォルトのワークフローが表示される。この画面が見えたらOK。

Step 4: カスタムノードをインストール

ComfyUI画面の右上「Manager」ボタンをクリック（ComfyUI Managerがプリインストールされている場合）。

Managerがない場合はSSH接続して手動インストールする。

SSH接続（必要な場合のみ）

Pod一覧の「Connect」→ SSH over exposed TCP で接続情報を確認。

ssh root@<ip> -p <port> -i ~/.ssh/id_rsa

カスタムノードのインストール

cd /workspace/ComfyUI/custom_nodes

# Camera Angle Selector（96アングル選択UI）
git clone https://github.com/NickPittas/ComfyUI_CameraAngleSelector.git

# ComfyUI Manager（入ってなければ）
git clone https://github.com/ltdrdata/ComfyUI-Manager.git

モデルバリアントの選択

Qwen-Image-Edit-2511には複数の量子化バリアントがある。使用するGPUのVRAMに応じて選ぶ。

バリアント	サイズ	必要VRAM	品質	用途
BF16（フル精度）	約57GB	40GB+	最高	A100/H100向け
FP8	約20GB	20GB程度	ほぼ同等	RTX 4090推奨
NF4	-	17GB程度	良好	RTX 3090向け
GGUF Q4_K_M	約13GB	12GB〜	実用的	RTX 3060向け

RTX 4090（24GB）なら FP8版が最適。品質を維持しつつVRAMに余裕ができる。

バリアント別の推奨設定

バリアント	CFG	Steps	備考
BF16	4.0	40	高品質、遅い
FP8	4.0	20	バランス良い
FP8 + Lightning LoRA	1.0	4	高速プレビュー向け

各バリアントのダウンロード元

FP8: 1038lab/Qwen-Image-Edit-2511-FP8
GGUF: unsloth/Qwen-Image-Edit-2511-GGUF
Lightning（高速推論）: lightx2v/Qwen-Image-Edit-2511-Lightning

以降の手順ではFP8版を使う前提で進める。フル精度版を使いたい場合はダウンロード元を Qwen/Qwen-Image-Edit-2511 に読み替える。

Step 5: モデルをダウンロード

Qwen-Image-Edit-2511のベースモデルとLoRAをダウンロードする。FP8版でも20GB以上あるので時間がかかる。

cd /workspace/ComfyUI/models

# HuggingFace CLIインストール
pip install -U huggingface-hub

# ベースモデル FP8版（約20GB）
huggingface-cli download 1038lab/Qwen-Image-Edit-2511-FP8 \
  --local-dir ./checkpoints/Qwen-Image-Edit-2511-FP8/

# Multiple-Angles-LoRA
mkdir -p loras
huggingface-cli download fal/Qwen-Image-Edit-2511-Multiple-Angles-LoRA \
  --local-dir ./loras/Qwen-Image-Edit-2511-Multiple-Angles-LoRA/

フル精度版を使う場合:

# ベースモデル BF16版（約57GB）
huggingface-cli download Qwen/Qwen-Image-Edit-2511 \
  --local-dir ./checkpoints/Qwen-Image-Edit-2511/

高速推論用のLightning LoRA（オプション）

推論ステップを40→4に減らせるLoRA。品質は少し落ちるが速度が大幅に上がる。

# Lightning LoRA
huggingface-cli download Kijai/flux-fp8 \
  Qwen-Image-Edit-2511-Lightning-4steps-V1.0-bf16.safetensors \
  --local-dir ./loras/

Step 6: ComfyUIを再起動

モデルとノードを認識させるためにComfyUIを再起動する。

supervisorctl restart comfyui

または、Pod自体を一度StopしてStartし直す。

Step 7: ワークフローを構築

ComfyUI画面で以下のノードを接続する。

基本構成

[Load Checkpoint] Qwen-Image-Edit-2511
       ↓
[Load LoRA] Multiple-Angles-LoRA (strength: 0.8〜1.0)
       ↓
[Load Image] 入力画像
       ↓
[Camera Angle Selector] アングル選択
       ↓
[CLIP Text Encode] プロンプト
       ↓
[KSampler]
       ↓
[Save Image]

Camera Angle Selectorの使い方

96種類のアングルから選択できる3DのUIが表示される。

方向: front, front-right, right, back-right, back, back-left, left, front-left
高さ: overhead, eye level, low angle, ground level
距離: close-up, medium shot, full shot

選択すると <sks> front view eye level medium shot のような形式でプロンプトに出力される。

推奨パラメータ

パラメータ	高速モード	高品質モード
Steps	4（Lightning LoRA使用時）	20
CFG Scale	3.0	4.0
Sampler	euler	dpm++_2m_karras

コスト管理

RunPodは時間課金なので、使い終わったら必ず管理する。

Stop: Podを停止。Volumeは保持されるがストレージ課金は継続
Delete: Podを削除。Volumeを残すか選択可能
Terminate: Pod + Volumeを完全削除

コストを抑えるコツ

作業が終わったらすぐStop
Volumeにモデルを保存しておけば、次回起動時に再ダウンロード不要
Spotインスタンス（50%割引）を使う。ただし中断リスクあり
長期間使わないならVolumeも削除（ストレージも課金対象）

トラブルシューティング

モデルが選択肢に出てこない

ComfyUIを再起動したか確認
モデルファイルのパスが正しいか確認（/workspace/ComfyUI/models/checkpoints/）
ファイルが完全にダウンロードされているか確認

Out of Memory (OOM) エラー

RTX 4090の24GBでも、高解像度や複雑なワークフローではOOMになることがある
BF16版を使っているならFP8版に切り替える
入力画像のサイズを小さくする
Lightning LoRAで推論ステップを減らす
それでもダメならGGUF版を試す

SSH接続できない

RunPodコンソールでPodが起動しているか確認
SSH公開鍵がRunPodに登録されているか確認
ファイアウォールでポートがブロックされていないか確認

NSFW対応（3Dモデル素体など）

公式版はNSFWコンテンツが抑制される傾向がある。3Dモデル用の素体3面図など、肌色が必要な用途にはコミュニティのNSFW対応版を使う。

Phr00t/Qwen-Image-Edit-Rapid-AIO

VAE/CLIP統合済みのオールインワンモデル。NSFW版とSFW版が分かれている。

バージョン	特徴
v18.1-NSFW	安定版、28.4GB
v19-NSFW	最新、Lightning 2511 8-step統合

ダウンロード: Phr00t/Qwen-Image-Edit-Rapid-AIO

セットアップ（Phr00t版）

公式版の代わりにPhr00t版をダウンロードする。

cd /workspace/ComfyUI/models/checkpoints

# v18.1-NSFW（安定版）
huggingface-cli download Phr00t/Qwen-Image-Edit-Rapid-AIO \
  v18/Qwen-Rapid-AIO-NSFW-v18.1.safetensors \
  --local-dir ./

ワークフローの違い

Phr00t版はVAE/CLIPが統合されているので、ノード構成がシンプルになる。

[Load Checkpoint] Qwen-Rapid-AIO-NSFW-v18.1
       ↓
[Load LoRA] Multiple-Angles-LoRA (strength: 0.8〜1.0)
       ↓
[Load Image] 入力画像
       ↓
[Camera Angle Selector] アングル選択
       ↓
[CLIP Text Encode] プロンプト
       ↓
[KSampler] steps: 4, cfg: 1.0, sampler: euler_ancestral, scheduler: beta
       ↓
[Save Image]

推奨パラメータ（Phr00t版）

パラメータ	値
Steps	4〜8
CFG	1.0
Sampler	euler_ancestral
Scheduler	beta

注意点

v18以降は顔の一貫性がv16より落ちるという報告あり
edit用途で一貫性を重視するなら v16 を試す価値あり
text-to-imageのNSFW品質は v18以降が良い

まとめ

RunPod + ComfyUIでQwen-Image-Edit-2511を動かす環境は1〜2時間で構築できる
RTX 4090で$0.34/時間、1回の推論は約2〜3円
Volumeを使い回せば、2回目以降は数分で起動できる
ローカルに70万円かけるより、クラウドで試してから判断するのが賢い