Qwen-Image-LayeredのLoRAをRunPodで動かす構成を調べた

Live2D用に顔パーツを自動分離したくて、Qwen-Image-Layered用のLoRAをRunPodで動かす構成を調べた。Qwen-Image-Editとは別モデルで、こちらは「レイヤー分離」に特化している。

Qwen-Image-Layeredとは

Alibabaが公開した画像生成モデルで、透過レイヤーを直接生成できるのが特徴。通常の画像生成は1枚絵だが、このモデルは背景・前景・パーツごとに分離されたレイヤーを出力する。

今回使うのは tori29umai氏のLoRA。顔のパーツ（目、鼻、口など）を別レイヤーとして分離する学習データが入っている。Live2Dのパーツ分けが45分→2分未満になったという報告もある。

参考:

なぜRunPodが必要か

Qwen-Image-LayeredはVRAMを大量に消費する。

モデル形式	サイズ	必要VRAM
BF16（最高画質）	約40GB	48GB以上
FP8（軽量版）	約20GB	24GB以上

ローカルのRTX 4090（24GB）では最高画質版が動かない。Google Colabも24GB制限があり厳しい。RunPodなら48GB以上のGPUを時間単位で借りられる。

GPU選択: RTX 6000 Ada vs RTX PRO 6000

RunPodで選べる48GB以上のGPUを比較する。

GPU	VRAM	アーキテクチャ	料金目安	特徴
RTX 6000 Ada	48GB	Ada Lovelace	$0.8〜1.2/時間	BF16版が動く最低ライン、コスパ良い
RTX PRO 6000	96GB	Blackwell	$1.5〜2.0/時間	最新世代、速度最速、余裕すぎる

※料金は2026年1月時点のCommunity Cloud目安。

どちらを選ぶべきか

RTX 6000 Ada（48GB）がおすすめ

Qwen-Image-Layered BF16版（40GB）+ LoRAが余裕で載る
料金が安い
速度も十分実用的

RTX PRO 6000（96GB）を選ぶ場面

短時間で一気に終わらせたい
速度が最優先（Blackwell世代は演算性能が高い）
VRAMを気にせず複雑なワークフローを組みたい

必要なファイル

ベースモデル（Qwen-Image-Layered）

ComfyUI用に分割されたファイルを使う。

ファイル	配置先	サイズ
qwen_image_layered_bf16.safetensors	models/diffusion_models/	約40GB
qwen_image_layered_vae.safetensors	models/vae/	-
qwen_2.5_vl_7b_fp8_scaled.safetensors	models/text_encoders/	-

ダウンロード元: Comfy-Org/Qwen-Image-Layered_ComfyUI

LoRA（顔パーツ分離用）

ファイル	配置先
QIL_face_parts_V3_dim16_1e-3-000056.safetensors	models/loras/

ダウンロード元: tori29umai/Qwen-Image-Layered

RunPodでのセットアップ手順

1. Pod作成

RunPodにログイン → Pods → + Deploy
GPU選択: RTX 6000 Ada または RTX PRO 6000
テンプレート: runpod/comfyui:latest
Volume Disk: 100GB（モデルが大きいので必須）
Deploy

2. モデルダウンロード

Web Terminalを開いて実行:

pip install huggingface_hub

cd /workspace/ComfyUI/models

# Diffusion Model（約40GB、時間かかる）
cd diffusion_models
wget https://huggingface.co/Comfy-Org/Qwen-Image-Layered_ComfyUI/resolve/main/split_files/diffusion_models/qwen_image_layered_bf16.safetensors

# VAE
cd ../vae
wget https://huggingface.co/Comfy-Org/Qwen-Image-Layered_ComfyUI/resolve/main/split_files/vae/qwen_image_layered_vae.safetensors

# Text Encoder
cd ../text_encoders
wget https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/resolve/main/split_files/text_encoders/qwen_2.5_vl_7b_fp8_scaled.safetensors

# LoRA（tori29umai版）
cd ../loras
wget https://huggingface.co/tori29umai/Qwen-Image-Layered/resolve/main/QIL_face_parts_V3_dim16_1e-3-000056.safetensors

3. ワークフロー読み込み

tori29umai氏のnote記事にワークフロー画像（JSON埋め込みPNG）があれば、ComfyUIにドラッグ＆ドロップするのが確実。

手動で組む場合の基本構成:

[Load Diffusion Model] qwen_image_layered_bf16
       ↓
[Load LoRA] QIL_face_parts_V3...
       ↓
[Load VAE] qwen_image_layered_vae
       ↓
[Load CLIP] qwen_2.5_vl_7b_fp8_scaled
       ↓
[Load Image] 入力画像
       ↓
[CLIP Text Encode] プロンプト（分離したいパーツを指定）
       ↓
[Sampler]
       ↓
[Save Image]

4. プロンプト例

顔パーツを分離する場合:

split eyes, split mouth, split nose, face parts separated

具体的なトリガーワードは配布元の説明を確認。

Qwen-Image-EditとLayeredの違い

	Qwen-Image-Edit	Qwen-Image-Layered
用途	画像編集（インペイント等）	レイヤー分離生成
出力	1枚の画像	透過レイヤー複数枚
モデルサイズ	約20GB（FP8）	約40GB（BF16）
必要VRAM	24GB〜	48GB〜

用途が違うので、どちらが良いという話ではない。
しかしローカルで動かせる人いるのかこれ、Mac Studioとかか？