UltraFlux-v1 — FLUX.1-devベースのネイティブ4K画像生成モデル
FLUX.1-devをベースに「ネイティブ4K生成」に振り切ったモデルが出てきた。W2GenAI LabのUltraFlux-v1。2025年11月にarXivで論文が公開され、Hugging Faceでウェイトも公開されている。
FLUXエコシステムではFLUX.2 Kleinが軽量化、Schnellが蒸留高速化と進んできたが、UltraFluxは逆方向で「4096×4096をネイティブに」というアプローチ。ちょうどZ-Imageの記事を書いたばかりだったので、立ち位置の違いが気になって調べた。
基本スペック
| 項目 | 内容 |
|---|---|
| ベースモデル | FLUX.1-dev (Black Forest Labs) |
| パラメータ数 | FLUX.1-devベース(12B相当) |
| 対応解像度 | 最大4096×4096(多様なアスペクト比対応) |
| 推論ステップ | 50 |
| ガイダンススケール | 4 |
| データ型 | bfloat16 |
| ライセンス | Apache 2.0 |
| 論文 | arXiv:2511.18050 |
技術的なポイント
UltraFluxのコンセプトは「データ-モデル共設計(Data-Model Co-Design)」。4K生成に必要な要素を個別に解決するのではなく、データセット・アーキテクチャ・損失関数・学習カリキュラムを一体で設計している。
Resonance 2D RoPE + YaRN
FLUX.1-devの位置エンコーディング(RoPE)は1K〜2K解像度向けに設計されている。そのまま4Kに拡張すると位置情報が破綻する。
UltraFluxはResonance RoPEで高解像度域の周波数成分を安定させ、YaRN(Yet another RoPE extensioN)でコンテキスト長を外挿する。LLMで使われているコンテキスト拡張テクニックを画像生成の2D空間に応用した形。これにより、多様なアスペクト比(正方形、縦長、超ワイド)でも位置情報が崩れない。
VAEのポストトレーニング
標準のFLUX VAEは1K解像度向けに最適化されている。4K画像を圧縮・復元すると細部が潰れる。
UltraFluxは敵対的学習(GAN loss)を使わない非敵対的ポストトレーニングでVAEを改良している。4K画像の微細なテクスチャやエッジの再構成精度を上げつつ、学習の安定性を確保するアプローチ。
SNR-Aware Huber Wavelet損失
通常のdiffusion学習では、ノイズレベルごとの勾配バランスが崩れやすい。特に高周波成分(テクスチャ、エッジ)が軽視されがち。
この損失関数はウェーブレット分解で周波数帯ごとに勾配を再バランスし、SNR(信号対雑音比)に応じて重み付けする。Huberロスで外れ値の影響も抑制。4K画像のシャープさを維持するための工夫。
Stage-wise Aesthetic Curriculum Learning (SACL)
学習初期は多様なデータで汎化性能を確保し、高ノイズの学習段階で高品質データに集中させるカリキュラム学習。闇雲に全データを混ぜるのではなく、学習フェーズに応じて「見せるデータの質」をコントロールしている。
MultiAspect-4K-1M データセット
モデルと同時に公開された訓練データセット。
- 100万枚のネイティブ4K画像
- バイリンガルキャプション(英語・中国語)
- VLM・IQAメタデータ付き
- アスペクト比のバランスを意識したサンプリング
データセット自体はまだ完全公開されていないが、論文で構成が詳述されている。
FLUXエコシステムの中での位置づけ
FLUXベースのモデルが増えてきたので整理する。
| モデル | 方向性 | パラメータ | 解像度 | ライセンス |
|---|---|---|---|---|
| FLUX.1 dev/pro | フラッグシップ | 12B | 〜2K | dev: 非商用 |
| FLUX.1 Schnell | 蒸留で高速化 | 12B | 〜2K | Apache 2.0 |
| FLUX.2 Klein 9B | 蒸留なしで軽量化 | 9B | 〜2K | 非商用 |
| FLUX.2 Klein 4B | さらに軽量化 | 4B | 〜2K | 非商用 |
| UltraFlux-v1 | 4K特化 | 12B相当 | 〜4K | Apache 2.0 |
FLUX.2 Kleinは「同品質をより小さく」、UltraFluxは「同サイズでより高解像度」。方向が正反対で、用途も異なる。
Z-Imageとの比較
Z-ImageもFLUXへの対抗馬として注目されているが、アプローチは全然違う。
| UltraFlux-v1 | Z-Image | |
|---|---|---|
| ベース | FLUX.1-dev改造 | 独自設計(S3-DiT) |
| パラメータ | 12B相当 | 6B |
| 最大解像度 | 4096×4096 | 2048×2048 |
| 最低VRAM | 24GB+(推定) | 6GB(量子化) |
| ネガティブプロンプト | 非対応(FLUX準拠) | 対応 |
| LoRA互換 | FLUX系LoRAとの互換は不明 | 独自エコシステム |
| 強み | 4K生成品質 | 軽さとパラメータ効率 |
Z-Imageは「12Bモデルに6Bで勝つ」効率路線。UltraFluxは「12Bモデルの解像度上限を引き上げる」品質路線。ユーザーの環境とユースケースで選ぶモデルが変わる。
推論コード
標準のdiffusersパイプラインではなく、独自のパイプラインクラスを使う。
import torch
from ultraflux.pipeline_flux import FluxPipeline
from ultraflux.transformer_flux_visionyarn import FluxTransformer2DModel
from ultraflux.autoencoder_kl import AutoencoderKL
# コンポーネントの読み込み
local_vae = AutoencoderKL.from_pretrained(
"Owen777/UltraFlux-v1",
subfolder="vae",
torch_dtype=torch.bfloat16
)
transformer = FluxTransformer2DModel.from_pretrained(
"Owen777/UltraFlux-v1",
subfolder="transformer",
torch_dtype=torch.bfloat16
)
pipe = FluxPipeline.from_pretrained(
"Owen777/UltraFlux-v1",
vae=local_vae,
torch_dtype=torch.bfloat16,
transformer=transformer
)
pipe.scheduler.config.use_dynamic_shifting = False
pipe.scheduler.config.time_shift = 4
pipe = pipe.to("cuda")
image = pipe(
prompt="a cat sitting on a windowsill at sunset",
height=4096,
width=4096,
guidance_scale=4,
num_inference_steps=50,
max_sequence_length=512,
generator=torch.Generator("cpu").manual_seed(0)
).images[0]
image.save("output.jpeg")
FluxTransformer2DModel が visionyarn サブモジュールになっていたり、スケジューラの time_shift を明示的に設定する必要があったりと、素のFLUX.1-devとは互換性がない。diffusersの標準 FluxPipeline ではなく、UltraFlux独自のパイプラインを使う点に注意。
実用面での注意点
VRAM要件が重い
FLUX.1-devのフルモデル(12B、bf16)で約24GBのVRAMが必要。UltraFluxは独自VAEとVisionYaRN Transformerを載せているため、さらに増える可能性がある。4096×4096の潜在空間も1024×1024の16倍のメモリを使う。
RTX 4090(24GB)で enable_model_cpu_offload() を使えば動くかもしれないが、生成速度はかなり落ちるはず。快適に使うならRTX A6000(48GB)以上か、クラウドGPU。
Apple Siliconは厳しい
FLUX.2 Klein(9B、29GB)でもApple Siliconでは実用外だった。12B + 4K解像度のUltraFluxはさらに条件が悪い。M1/M2/M3 Max 64GBでもメモリは足りるかもしれないが、生成時間が非現実的になる。
ComfyUI対応は未確認
GitHub上にはdiffusersベースの推論スクリプトのみ公開されている。ComfyUIのネイティブサポートは2026年2月時点では確認できなかった。
エコシステムの未成熟さ
ダウンロード数280回、いいね169。Z-Imageの初動と比べると控えめ。HuggingFace Spacesのデモは1件あるが、サードパーティのファインチューンやLoRAはまだ見当たらない。
v1.1バリアント
v1公開の翌日にv1.1のTransformerが公開されている。高品質な合成画像でファインチューニングしたバリアントで、構図や美的品質の改善が謳われている。Transformerのみの差し替えで使える。