技術 約6分で読めます

UltraFlux-v1 — FLUX.1-devベースのネイティブ4K画像生成モデル

FLUX.1-devをベースに「ネイティブ4K生成」に振り切ったモデルが出てきた。W2GenAI LabのUltraFlux-v1。2025年11月にarXivで論文が公開され、Hugging Faceでウェイトも公開されている。

FLUXエコシステムではFLUX.2 Kleinが軽量化、Schnellが蒸留高速化と進んできたが、UltraFluxは逆方向で「4096×4096をネイティブに」というアプローチ。ちょうどZ-Imageの記事を書いたばかりだったので、立ち位置の違いが気になって調べた。

基本スペック

項目内容
ベースモデルFLUX.1-dev (Black Forest Labs)
パラメータ数FLUX.1-devベース(12B相当)
対応解像度最大4096×4096(多様なアスペクト比対応)
推論ステップ50
ガイダンススケール4
データ型bfloat16
ライセンスApache 2.0
論文arXiv:2511.18050

技術的なポイント

UltraFluxのコンセプトは「データ-モデル共設計(Data-Model Co-Design)」。4K生成に必要な要素を個別に解決するのではなく、データセット・アーキテクチャ・損失関数・学習カリキュラムを一体で設計している。

Resonance 2D RoPE + YaRN

FLUX.1-devの位置エンコーディング(RoPE)は1K〜2K解像度向けに設計されている。そのまま4Kに拡張すると位置情報が破綻する。

UltraFluxはResonance RoPEで高解像度域の周波数成分を安定させ、YaRN(Yet another RoPE extensioN)でコンテキスト長を外挿する。LLMで使われているコンテキスト拡張テクニックを画像生成の2D空間に応用した形。これにより、多様なアスペクト比(正方形、縦長、超ワイド)でも位置情報が崩れない。

VAEのポストトレーニング

標準のFLUX VAEは1K解像度向けに最適化されている。4K画像を圧縮・復元すると細部が潰れる。

UltraFluxは敵対的学習(GAN loss)を使わない非敵対的ポストトレーニングでVAEを改良している。4K画像の微細なテクスチャやエッジの再構成精度を上げつつ、学習の安定性を確保するアプローチ。

SNR-Aware Huber Wavelet損失

通常のdiffusion学習では、ノイズレベルごとの勾配バランスが崩れやすい。特に高周波成分(テクスチャ、エッジ)が軽視されがち。

この損失関数はウェーブレット分解で周波数帯ごとに勾配を再バランスし、SNR(信号対雑音比)に応じて重み付けする。Huberロスで外れ値の影響も抑制。4K画像のシャープさを維持するための工夫。

Stage-wise Aesthetic Curriculum Learning (SACL)

学習初期は多様なデータで汎化性能を確保し、高ノイズの学習段階で高品質データに集中させるカリキュラム学習。闇雲に全データを混ぜるのではなく、学習フェーズに応じて「見せるデータの質」をコントロールしている。

MultiAspect-4K-1M データセット

モデルと同時に公開された訓練データセット。

  • 100万枚のネイティブ4K画像
  • バイリンガルキャプション(英語・中国語)
  • VLM・IQAメタデータ付き
  • アスペクト比のバランスを意識したサンプリング

データセット自体はまだ完全公開されていないが、論文で構成が詳述されている。

FLUXエコシステムの中での位置づけ

FLUXベースのモデルが増えてきたので整理する。

モデル方向性パラメータ解像度ライセンス
FLUX.1 dev/proフラッグシップ12B〜2Kdev: 非商用
FLUX.1 Schnell蒸留で高速化12B〜2KApache 2.0
FLUX.2 Klein 9B蒸留なしで軽量化9B〜2K非商用
FLUX.2 Klein 4Bさらに軽量化4B〜2K非商用
UltraFlux-v14K特化12B相当〜4KApache 2.0

FLUX.2 Kleinは「同品質をより小さく」、UltraFluxは「同サイズでより高解像度」。方向が正反対で、用途も異なる。

Z-Imageとの比較

Z-ImageもFLUXへの対抗馬として注目されているが、アプローチは全然違う。

UltraFlux-v1Z-Image
ベースFLUX.1-dev改造独自設計(S3-DiT)
パラメータ12B相当6B
最大解像度4096×40962048×2048
最低VRAM24GB+(推定)6GB(量子化)
ネガティブプロンプト非対応(FLUX準拠)対応
LoRA互換FLUX系LoRAとの互換は不明独自エコシステム
強み4K生成品質軽さとパラメータ効率

Z-Imageは「12Bモデルに6Bで勝つ」効率路線。UltraFluxは「12Bモデルの解像度上限を引き上げる」品質路線。ユーザーの環境とユースケースで選ぶモデルが変わる。

推論コード

標準のdiffusersパイプラインではなく、独自のパイプラインクラスを使う。

import torch
from ultraflux.pipeline_flux import FluxPipeline
from ultraflux.transformer_flux_visionyarn import FluxTransformer2DModel
from ultraflux.autoencoder_kl import AutoencoderKL

# コンポーネントの読み込み
local_vae = AutoencoderKL.from_pretrained(
    "Owen777/UltraFlux-v1",
    subfolder="vae",
    torch_dtype=torch.bfloat16
)
transformer = FluxTransformer2DModel.from_pretrained(
    "Owen777/UltraFlux-v1",
    subfolder="transformer",
    torch_dtype=torch.bfloat16
)

pipe = FluxPipeline.from_pretrained(
    "Owen777/UltraFlux-v1",
    vae=local_vae,
    torch_dtype=torch.bfloat16,
    transformer=transformer
)
pipe.scheduler.config.use_dynamic_shifting = False
pipe.scheduler.config.time_shift = 4
pipe = pipe.to("cuda")

image = pipe(
    prompt="a cat sitting on a windowsill at sunset",
    height=4096,
    width=4096,
    guidance_scale=4,
    num_inference_steps=50,
    max_sequence_length=512,
    generator=torch.Generator("cpu").manual_seed(0)
).images[0]

image.save("output.jpeg")

FluxTransformer2DModelvisionyarn サブモジュールになっていたり、スケジューラの time_shift を明示的に設定する必要があったりと、素のFLUX.1-devとは互換性がない。diffusersの標準 FluxPipeline ではなく、UltraFlux独自のパイプラインを使う点に注意。

実用面での注意点

VRAM要件が重い

FLUX.1-devのフルモデル(12B、bf16)で約24GBのVRAMが必要。UltraFluxは独自VAEとVisionYaRN Transformerを載せているため、さらに増える可能性がある。4096×4096の潜在空間も1024×1024の16倍のメモリを使う。

RTX 4090(24GB)で enable_model_cpu_offload() を使えば動くかもしれないが、生成速度はかなり落ちるはず。快適に使うならRTX A6000(48GB)以上か、クラウドGPU。

Apple Siliconは厳しい

FLUX.2 Klein(9B、29GB)でもApple Siliconでは実用外だった。12B + 4K解像度のUltraFluxはさらに条件が悪い。M1/M2/M3 Max 64GBでもメモリは足りるかもしれないが、生成時間が非現実的になる。

ComfyUI対応は未確認

GitHub上にはdiffusersベースの推論スクリプトのみ公開されている。ComfyUIのネイティブサポートは2026年2月時点では確認できなかった。

エコシステムの未成熟さ

ダウンロード数280回、いいね169。Z-Imageの初動と比べると控えめ。HuggingFace Spacesのデモは1件あるが、サードパーティのファインチューンやLoRAはまだ見当たらない。

v1.1バリアント

v1公開の翌日にv1.1のTransformerが公開されている。高品質な合成画像でファインチューニングしたバリアントで、構図や美的品質の改善が謳われている。Transformerのみの差し替えで使える。

参考リンク

関連記事