技術 約4分で読めます

Qwen-Image-LayeredのLoRAをRunPodで動かす構成を調べた

Live2D用に顔パーツを自動分離したくて、Qwen-Image-Layered用のLoRAをRunPodで動かす構成を調べた。Qwen-Image-Editとは別モデルで、こちらは「レイヤー分離」に特化している。

Qwen-Image-Layeredとは

Alibabaが公開した画像生成モデルで、透過レイヤーを直接生成できるのが特徴。通常の画像生成は1枚絵だが、このモデルは背景・前景・パーツごとに分離されたレイヤーを出力する。

今回使うのは tori29umai氏のLoRA。顔のパーツ(目、鼻、口など)を別レイヤーとして分離する学習データが入っている。Live2Dのパーツ分けが45分→2分未満になったという報告もある。

参考:

なぜRunPodが必要か

Qwen-Image-LayeredはVRAMを大量に消費する

モデル形式サイズ必要VRAM
BF16(最高画質)約40GB48GB以上
FP8(軽量版)約20GB24GB以上

ローカルのRTX 4090(24GB)では最高画質版が動かない。Google Colabも24GB制限があり厳しい。RunPodなら48GB以上のGPUを時間単位で借りられる。

GPU選択: RTX 6000 Ada vs RTX PRO 6000

RunPodで選べる48GB以上のGPUを比較する。

GPUVRAMアーキテクチャ料金目安特徴
RTX 6000 Ada48GBAda Lovelace$0.8〜1.2/時間BF16版が動く最低ライン、コスパ良い
RTX PRO 600096GBBlackwell$1.5〜2.0/時間最新世代、速度最速、余裕すぎる

※料金は2026年1月時点のCommunity Cloud目安。

どちらを選ぶべきか

RTX 6000 Ada(48GB)がおすすめ

  • Qwen-Image-Layered BF16版(40GB)+ LoRAが余裕で載る
  • 料金が安い
  • 速度も十分実用的

RTX PRO 6000(96GB)を選ぶ場面

  • 短時間で一気に終わらせたい
  • 速度が最優先(Blackwell世代は演算性能が高い)
  • VRAMを気にせず複雑なワークフローを組みたい

必要なファイル

ベースモデル(Qwen-Image-Layered)

ComfyUI用に分割されたファイルを使う。

ファイル配置先サイズ
qwen_image_layered_bf16.safetensorsmodels/diffusion_models/約40GB
qwen_image_layered_vae.safetensorsmodels/vae/-
qwen_2.5_vl_7b_fp8_scaled.safetensorsmodels/text_encoders/-

ダウンロード元: Comfy-Org/Qwen-Image-Layered_ComfyUI

LoRA(顔パーツ分離用)

ファイル配置先
QIL_face_parts_V3_dim16_1e-3-000056.safetensorsmodels/loras/

ダウンロード元: tori29umai/Qwen-Image-Layered

RunPodでのセットアップ手順

1. Pod作成

  1. RunPodにログイン → Pods → + Deploy
  2. GPU選択: RTX 6000 Ada または RTX PRO 6000
  3. テンプレート: runpod/comfyui:latest
  4. Volume Disk: 100GB(モデルが大きいので必須)
  5. Deploy

2. モデルダウンロード

Web Terminalを開いて実行:

pip install huggingface_hub

cd /workspace/ComfyUI/models

# Diffusion Model(約40GB、時間かかる)
cd diffusion_models
wget https://huggingface.co/Comfy-Org/Qwen-Image-Layered_ComfyUI/resolve/main/split_files/diffusion_models/qwen_image_layered_bf16.safetensors

# VAE
cd ../vae
wget https://huggingface.co/Comfy-Org/Qwen-Image-Layered_ComfyUI/resolve/main/split_files/vae/qwen_image_layered_vae.safetensors

# Text Encoder
cd ../text_encoders
wget https://huggingface.co/Comfy-Org/Qwen-Image_ComfyUI/resolve/main/split_files/text_encoders/qwen_2.5_vl_7b_fp8_scaled.safetensors

# LoRA(tori29umai版)
cd ../loras
wget https://huggingface.co/tori29umai/Qwen-Image-Layered/resolve/main/QIL_face_parts_V3_dim16_1e-3-000056.safetensors

3. ワークフロー読み込み

tori29umai氏のnote記事にワークフロー画像(JSON埋め込みPNG)があれば、ComfyUIにドラッグ&ドロップするのが確実。

手動で組む場合の基本構成:

[Load Diffusion Model] qwen_image_layered_bf16

[Load LoRA] QIL_face_parts_V3...

[Load VAE] qwen_image_layered_vae

[Load CLIP] qwen_2.5_vl_7b_fp8_scaled

[Load Image] 入力画像

[CLIP Text Encode] プロンプト(分離したいパーツを指定)

[Sampler]

[Save Image]

4. プロンプト例

顔パーツを分離する場合:

split eyes, split mouth, split nose, face parts separated

具体的なトリガーワードは配布元の説明を確認。

Qwen-Image-EditとLayeredの違い

Qwen-Image-EditQwen-Image-Layered
用途画像編集(インペイント等)レイヤー分離生成
出力1枚の画像透過レイヤー複数枚
モデルサイズ約20GB(FP8)約40GB(BF16)
必要VRAM24GB〜48GB〜

用途が違うので、どちらが良いという話ではない。
しかしローカルで動かせる人いるのかこれ、Mac Studioとかか?

参考リンク