UltraFlux-v1 — FLUX.1-devベースのネイティブ4K画像生成モデル

FLUX.1-devをベースに「ネイティブ4K生成」に振り切ったモデルが出てきた。W2GenAI LabのUltraFlux-v1。2025年11月にarXivで論文が公開され、Hugging Faceでウェイトも公開されている。

FLUXエコシステムではFLUX.2 Kleinが軽量化、Schnellが蒸留高速化と進んできたが、UltraFluxは逆方向で「4096×4096をネイティブに」というアプローチ。ちょうどZ-Imageの記事を書いたばかりだったので、立ち位置の違いが気になって調べた。

基本スペック

項目	内容
ベースモデル	FLUX.1-dev (Black Forest Labs)
パラメータ数	FLUX.1-devベース（12B相当）
対応解像度	最大4096×4096（多様なアスペクト比対応）
推論ステップ	50
ガイダンススケール	4
データ型	bfloat16
ライセンス	Apache 2.0
論文	arXiv:2511.18050

技術的なポイント

UltraFluxのコンセプトは「データ-モデル共設計（Data-Model Co-Design）」。4K生成に必要な要素を個別に解決するのではなく、データセット・アーキテクチャ・損失関数・学習カリキュラムを一体で設計している。

Resonance 2D RoPE + YaRN

FLUX.1-devの位置エンコーディング（RoPE）は1K〜2K解像度向けに設計されている。そのまま4Kに拡張すると位置情報が破綻する。

UltraFluxはResonance RoPEで高解像度域の周波数成分を安定させ、YaRN（Yet another RoPE extensioN）でコンテキスト長を外挿する。LLMで使われているコンテキスト拡張テクニックを画像生成の2D空間に応用した形。これにより、多様なアスペクト比（正方形、縦長、超ワイド）でも位置情報が崩れない。

VAEのポストトレーニング

標準のFLUX VAEは1K解像度向けに最適化されている。4K画像を圧縮・復元すると細部が潰れる。

UltraFluxは敵対的学習（GAN loss）を使わない非敵対的ポストトレーニングでVAEを改良している。4K画像の微細なテクスチャやエッジの再構成精度を上げつつ、学習の安定性を確保するアプローチ。

SNR-Aware Huber Wavelet損失

通常のdiffusion学習では、ノイズレベルごとの勾配バランスが崩れやすい。特に高周波成分（テクスチャ、エッジ）が軽視されがち。

この損失関数はウェーブレット分解で周波数帯ごとに勾配を再バランスし、SNR（信号対雑音比）に応じて重み付けする。Huberロスで外れ値の影響も抑制。4K画像のシャープさを維持するための工夫。

Stage-wise Aesthetic Curriculum Learning (SACL)

学習初期は多様なデータで汎化性能を確保し、高ノイズの学習段階で高品質データに集中させるカリキュラム学習。闇雲に全データを混ぜるのではなく、学習フェーズに応じて「見せるデータの質」をコントロールしている。

MultiAspect-4K-1M データセット

モデルと同時に公開された訓練データセット。

100万枚のネイティブ4K画像
バイリンガルキャプション（英語・中国語）
VLM・IQAメタデータ付き
アスペクト比のバランスを意識したサンプリング

データセット自体はまだ完全公開されていないが、論文で構成が詳述されている。

FLUXエコシステムの中での位置づけ

FLUXベースのモデルが増えてきたので整理する。

モデル	方向性	パラメータ	解像度	ライセンス
FLUX.1 dev/pro	フラッグシップ	12B	〜2K	dev: 非商用
FLUX.1 Schnell	蒸留で高速化	12B	〜2K	Apache 2.0
FLUX.2 Klein 9B	蒸留なしで軽量化	9B	〜2K	非商用
FLUX.2 Klein 4B	さらに軽量化	4B	〜2K	非商用
UltraFlux-v1	4K特化	12B相当	〜4K	Apache 2.0

FLUX.2 Kleinは「同品質をより小さく」、UltraFluxは「同サイズでより高解像度」。方向が正反対で、用途も異なる。

Z-Imageとの比較

Z-ImageもFLUXへの対抗馬として注目されているが、アプローチは全然違う。

	UltraFlux-v1	Z-Image
ベース	FLUX.1-dev改造	独自設計（S3-DiT）
パラメータ	12B相当	6B
最大解像度	4096×4096	2048×2048
最低VRAM	24GB+（推定）	6GB（量子化）
ネガティブプロンプト	非対応（FLUX準拠）	対応
LoRA互換	FLUX系LoRAとの互換は不明	独自エコシステム
強み	4K生成品質	軽さとパラメータ効率

Z-Imageは「12Bモデルに6Bで勝つ」効率路線。UltraFluxは「12Bモデルの解像度上限を引き上げる」品質路線。ユーザーの環境とユースケースで選ぶモデルが変わる。

推論コード

標準のdiffusersパイプラインではなく、独自のパイプラインクラスを使う。

import torch
from ultraflux.pipeline_flux import FluxPipeline
from ultraflux.transformer_flux_visionyarn import FluxTransformer2DModel
from ultraflux.autoencoder_kl import AutoencoderKL

# コンポーネントの読み込み
local_vae = AutoencoderKL.from_pretrained(
    "Owen777/UltraFlux-v1",
    subfolder="vae",
    torch_dtype=torch.bfloat16
)
transformer = FluxTransformer2DModel.from_pretrained(
    "Owen777/UltraFlux-v1",
    subfolder="transformer",
    torch_dtype=torch.bfloat16
)

pipe = FluxPipeline.from_pretrained(
    "Owen777/UltraFlux-v1",
    vae=local_vae,
    torch_dtype=torch.bfloat16,
    transformer=transformer
)
pipe.scheduler.config.use_dynamic_shifting = False
pipe.scheduler.config.time_shift = 4
pipe = pipe.to("cuda")

image = pipe(
    prompt="a cat sitting on a windowsill at sunset",
    height=4096,
    width=4096,
    guidance_scale=4,
    num_inference_steps=50,
    max_sequence_length=512,
    generator=torch.Generator("cpu").manual_seed(0)
).images[0]

image.save("output.jpeg")

FluxTransformer2DModel が visionyarn サブモジュールになっていたり、スケジューラの time_shift を明示的に設定する必要があったりと、素のFLUX.1-devとは互換性がない。diffusersの標準 FluxPipeline ではなく、UltraFlux独自のパイプラインを使う点に注意。

実用面での注意点

VRAM要件が重い

FLUX.1-devのフルモデル（12B、bf16）で約24GBのVRAMが必要。UltraFluxは独自VAEとVisionYaRN Transformerを載せているため、さらに増える可能性がある。4096×4096の潜在空間も1024×1024の16倍のメモリを使う。

RTX 4090（24GB）で enable_model_cpu_offload() を使えば動くかもしれないが、生成速度はかなり落ちるはず。快適に使うならRTX A6000（48GB）以上か、クラウドGPU。

Apple Siliconは厳しい

FLUX.2 Klein（9B、29GB）でもApple Siliconでは実用外だった。12B + 4K解像度のUltraFluxはさらに条件が悪い。M1/M2/M3 Max 64GBでもメモリは足りるかもしれないが、生成時間が非現実的になる。

ComfyUI対応は未確認

GitHub上にはdiffusersベースの推論スクリプトのみ公開されている。ComfyUIのネイティブサポートは2026年2月時点では確認できなかった。

エコシステムの未成熟さ

ダウンロード数280回、いいね169。Z-Imageの初動と比べると控えめ。HuggingFace Spacesのデモは1件あるが、サードパーティのファインチューンやLoRAはまだ見当たらない。

v1.1バリアント

v1公開の翌日にv1.1のTransformerが公開されている。高品質な合成画像でファインチューニングしたバリアントで、構図や美的品質の改善が謳われている。Transformerのみの差し替えで使える。