Qwen-Image-LayeredのLoRAをRunPodで動かす構成を調べた
Live2D用に顔パーツを自動分離したくて、Qwen-Image-Layered用のLoRAをRunPodで動かす構成を調べた。Qwen-Image-Editとは別モデルで、こちらは「レイヤー分離」に特化している。
Qwen-Image-Layeredとは
Alibabaが公開した画像生成モデルで、透過レイヤーを直接生成できるのが特徴。通常の画像生成は1枚絵だが、このモデルは背景・前景・パーツごとに分離されたレイヤーを出力する。
今回使うのは tori29umai氏のLoRA。顔のパーツ(目、鼻、口など)を別レイヤーとして分離する学習データが入っている。Live2Dのパーツ分けが45分→2分未満になったという報告もある。
参考:
なぜRunPodが必要か
Qwen-Image-LayeredはVRAMを大量に消費する。
| モデル形式 | サイズ | 必要VRAM |
|---|---|---|
| BF16(最高画質) | 約40GB | 48GB以上 |
| FP8(軽量版) | 約20GB | 24GB以上 |
ローカルのRTX 4090(24GB)では最高画質版が動かない。Google Colabも24GB制限があり厳しい。RunPodなら48GB以上のGPUを時間単位で借りられる。
GPU選択: RTX 6000 Ada vs RTX PRO 6000
RunPodで選べる48GB以上のGPUを比較する。
| GPU | VRAM | アーキテクチャ | 料金目安 | 特徴 |
|---|---|---|---|---|
| RTX 6000 Ada | 48GB | Ada Lovelace | $0.8〜1.2/時間 | BF16版が動く最低ライン、コスパ良い |
| RTX PRO 6000 | 96GB | Blackwell | $1.5〜2.0/時間 | 最新世代、速度最速、余裕すぎる |
※料金は2026年1月時点のCommunity Cloud目安。
どちらを選ぶべきか
RTX 6000 Ada(48GB)がおすすめ
- Qwen-Image-Layered BF16版(40GB)+ LoRAが余裕で載る
- 料金が安い
- 速度も十分実用的
RTX PRO 6000(96GB)を選ぶ場面
- 短時間で一気に終わらせたい
- 速度が最優先(Blackwell世代は演算性能が高い)
- VRAMを気にせず複雑なワークフローを組みたい
必要なファイル
ベースモデル(Qwen-Image-Layered)
ComfyUI用に分割されたファイルを使う。
| ファイル | 配置先 | サイズ |
|---|---|---|
| qwen_image_layered_bf16.safetensors | models/diffusion_models/ | 約40GB |
| qwen_image_layered_vae.safetensors | models/vae/ | - |
| qwen_2.5_vl_7b_fp8_scaled.safetensors | models/text_encoders/ | - |
ダウンロード元: Comfy-Org/Qwen-Image-Layered_ComfyUI
LoRA(顔パーツ分離用)
| ファイル | 配置先 |
|---|---|
| QIL_face_parts_V3_dim16_1e-3-000056.safetensors | models/loras/ |
ダウンロード元: tori29umai/Qwen-Image-Layered
RunPodでのセットアップ手順
1. Pod作成
- RunPodにログイン → Pods → + Deploy
- GPU選択: RTX 6000 Ada または RTX PRO 6000
- テンプレート: runpod/comfyui:latest
- Volume Disk: 100GB(モデルが大きいので必須)
- Deploy
2. モデルダウンロード
Web Terminalを開いて実行:
pip install huggingface_hub
cd /workspace/ComfyUI/models
# Diffusion Model(約40GB、時間かかる)
cd diffusion_models
wget https://huggingface.co/Comfy-Org/Qwen-Image-Layered_ComfyUI/resolve/main/split_files/diffusion_models/qwen_image_layered_bf16.safetensors
# VAE
cd ../vae
wget https://huggingface.co/Comfy-Org/Qwen-Image-Layered_ComfyUI/resolve/main/split_files/vae/qwen_image_layered_vae.safetensors
# Text Encoder
cd ../text_encoders
wget https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/resolve/main/split_files/text_encoders/qwen_2.5_vl_7b_fp8_scaled.safetensors
# LoRA(tori29umai版)
cd ../loras
wget https://huggingface.co/tori29umai/Qwen-Image-Layered/resolve/main/QIL_face_parts_V3_dim16_1e-3-000056.safetensors
3. ワークフロー読み込み
tori29umai氏のnote記事にワークフロー画像(JSON埋め込みPNG)があれば、ComfyUIにドラッグ&ドロップするのが確実。
手動で組む場合の基本構成:
[Load Diffusion Model] qwen_image_layered_bf16
↓
[Load LoRA] QIL_face_parts_V3...
↓
[Load VAE] qwen_image_layered_vae
↓
[Load CLIP] qwen_2.5_vl_7b_fp8_scaled
↓
[Load Image] 入力画像
↓
[CLIP Text Encode] プロンプト(分離したいパーツを指定)
↓
[Sampler]
↓
[Save Image]
4. プロンプト例
顔パーツを分離する場合:
split eyes, split mouth, split nose, face parts separated
具体的なトリガーワードは配布元の説明を確認。
Qwen-Image-EditとLayeredの違い
| Qwen-Image-Edit | Qwen-Image-Layered | |
|---|---|---|
| 用途 | 画像編集(インペイント等) | レイヤー分離生成 |
| 出力 | 1枚の画像 | 透過レイヤー複数枚 |
| モデルサイズ | 約20GB(FP8) | 約40GB(BF16) |
| 必要VRAM | 24GB〜 | 48GB〜 |
用途が違うので、どちらが良いという話ではない。
しかしローカルで動かせる人いるのかこれ、Mac Studioとかか?