LLaDA2.0-Uniは拡散LLMで画像理解と生成を一本化したオープンモデル

Inclusion AIがLLaDA2.0-Uniを公開した。
論文はarXiv:2604.20796、ウェイトはHugging FaceとModelScopeに出ている。
ライセンスはApache 2.0。

ざっくり言うと、画像を見るVLMと画像を作る拡散モデルを、16B MoEの拡散LLMに寄せて一本化したモデルだ。
以前書いたLuma AIのUni-1も「理解と生成を同じモデルに寄せる」話だったが、Uni-1は自己回帰Transformer寄り。
LLaDA2.0-Uniは、Mask Token Predictionを使う離散拡散LLMを中心に置いている。

16B MoEのLLaDA2.0-miniに画像トークンを足す

LLaDA2.0-Uniの背骨は、Inclusion AIのLLaDA2.X系列にあるLLaDA2.0-mini。
論文では16B total parametersのMoE拡散LLMとして説明されている。
100BのLLaDA2.0-flashではなく、今回の統合モデルは16B側を使う。

画像はそのままピクセルとしてLLMに入れない。
SigLIP-VQというトークナイザで、画像を16,384語彙の離散的な意味トークンに変換する。
このトークンを、テキストと同じMask Token Predictionの枠で処理する。

graph TD
    A[テキスト] --> C[拡散LLM<br/>16B MoE]
    B[画像] --> D[SigLIP-VQ<br/>意味トークン化]
    D --> C
    C --> E[テキスト回答]
    C --> F[画像トークン]
    F --> G[Diffusion Decoder]
    G --> H[画像出力]

ここで効いているのは、画像生成用のVQ-VAEトークンではなく、理解タスクで意味を残すSigLIP系の表現を使っている点。
従来の統合型モデルでは、画像を再構成しやすいトークンにすると理解が弱くなり、理解しやすい表現にすると画像へ戻す経路が弱くなる。
LLaDA2.0-Uniは後段に専用のDiffusion Decoderを置いて、意味トークンから画像へ戻す。

このDecoderにはZ-Image-Baseが使われている。
Z-Imageについては前にFLUXとの比較記事を書いたが、LLaDA2.0-Uniでは単体の画像生成モデルではなく、生成済みの画像トークンを実画像へ復元する部品になっている。

生成、理解、編集を同じ公開ウェイトで触れる

モデルカード上の対応タスクは、テキストから画像生成、画像理解、画像編集、テキストと画像を交互に出す生成。
Hugging Face上ではAny-to-Any、Transformers、Diffusers、Safetensors、BF16、16B paramsとして登録されている。

公開リポジトリのQuick Startを見る限り、初期リリースで出ている推論コードはかなり具体的だ。

機能	公開例で確認できる内容
画像生成	`generate_image`で1024x1024生成。通常モードは8 steps
thinking付き画像生成	`mode="thinking"`で思考テキストを出してから画像トークンを生成
画像理解	画像をSigLIP-VQでトークン化し、質問に回答
画像編集	参照画像をトークン化し、指示文で編集
SPRINT	KV cache再利用、適応的unmask、batch acceptanceで高速化

画像生成のDecoderは通常50 stepsだが、distilled decoder turboでは8 stepsになる。
論文の表では、1024x1024、BF16、batch size 1で32.95秒から2.90秒まで短縮され、GenEvalは0.89から0.87、DPGは87.76から87.24に下がる程度だった。

SPRINTも別の高速化として入っている。
こちらは拡散LLM側の推論を軽くする仕組みで、平均TPSが24.3から39.8に上がり、平均スコアは76.3から75.7に落ちる。
OCRBenchやDPGはやや落ちるので、文字精度が欲しい用途では無条件にオンでいいわけではなさそうだ。

ベンチマークは強いが、専用モデルを全部置き換える話ではない

視覚理解では、Qwen2.5-VL-7BやBAGELなどと比較されている。
MMStarは64.1でQwen2.5-VL-7Bの63.9とほぼ同等。
DocVQAは89.5で、Qwen2.5-VL-7Bの94.9やBAGELの94.3よりは低い。
OCRBenchも75.7で、Qwen2.5-VL-7Bの84.2には届かない。

つまり、VLM専用モデルに近づいたのは確かだが、文書OCRだけ見れば専用VLMやOCR特化モデルのほうがまだ強い。
このブログで扱ったGLM-OCRやPaddleOCR-VLのような文書解析モデルとは、用途が少し違う。

画像生成では、GenEvalのOverallが0.89。
Qwen-ImageやLongCat-Imageの0.87、Z-Image-Turboの0.82を上回っている。
DPG-Benchは87.76で、Qwen-Imageの88.32やSeedream 3.0の88.27に少し届かないが、統合モデルとしては上位にいる。

編集ではもう少し差が見える。
ImgEdit-BenchのOverallは3.92で、Qwen-Image-Editの4.35、Z-Image-Editの4.30より低い。
GEdit-Bench ENのOverallも6.61で、Qwen-Image-Editの7.56やZ-Image-Editの7.57には届かない。
一方で、統合モデルのBAGELやOmniGen2よりは強い。

単機能の最高性能を取りに行くモデルではなく、「理解、生成、編集、交互生成を同じ離散トークン空間で扱う」実験として見るほうが外さない。

Qwen-Image-2.0-Proと逆方向の出方

数日前にQwen-Image-2.0-Proの記事を書いた。
あれはArena上で強いAPIモデルとして見えていて、公式オープンウェイトは確認できなかった。

LLaDA2.0-Uniは逆で、初期リリースから論文、コード、ウェイトが揃っている。
ただしHugging Faceのモデルカードにも「This model isn’t deployed by any Inference Provider」と出ていて、ブラウザやAPIで即試すモデルではない。
CUDA 12.4、Flash Attention 2、trust_remote_code=True前提のローカル実行になる。

16B BF16なので、手元のMacや8GB GPUで気軽に回す枠でもなさそうだ。
量子化版はコミュニティ側に出始めているが、公式の推論例はCUDA前提。
ComfyUIで画像生成モデルを差し替えるような使い方を期待すると、まだ距離がある。

「考えてから描く」は面白いが、まだ研究実装寄り

thinking付き画像生成は面白い。
モデルがまずテキストの思考過程を生成し、その後で画像トークンを出す。
Luma Uni-1やGPT-Image系で言われていた「生成前の推論」を、オープンウェイトの拡散LLMで触れる形にしたものだ。

ただ、ここでのthinkingは品質保証の魔法ではない。
論文ではWISE-Benchでreasoning modeにより10%改善とされているが、実際のキャラクター維持、文字描画、複数参照編集、ローカル速度は、環境とタスクごとに確認が要る。

特に画像編集では、専用のQwen-Image-EditやZ-Image-Editがまだ強い。
ローカルでキャラやLoRAを回す用途なら、今すぐLLaDA2.0-Uniに乗り換えるというより、統合型モデルがどこまで降りてきたかを見る対象だと思う。

編集ベンチマークの上位は幽霊モデル

編集ベンチマークでLLaDA2.0-Uniの上にいるQwen-Image-EditとZ-Image-Editだが、どちらもオープンウェイトでは手に入らない。

Z-Image-Editはドット絵変換の調査のときに確認した通り、GitHubのmodel zooで「To be released」のまま止まっている。
Webデモは動くが、ローカルで動かすことはできない。

Qwen-Image-Edit側も、ウェイトが公開されている最新は2511版。
Qwen-Image-2.0-ProがAPI止まりだったのと同様に、2.0世代の編集モデルはオープンウェイトが出ていない。

スコアだけ見て「LLaDA2.0-Uniは編集で負けている」と切ると、比較対象がどちらも入手できない幽霊モデルだという状況を見落とす。

じゃあLLaDA2.0-Uniがその穴を埋められるかというと、今のところ厳しい。
推論コードはCUDA 12.4 + Flash Attention 2前提で、ComfyUIのノードもない。
16B BF16をロードするだけでVRAMを食うし、編集のたびにSigLIP-VQのエンコードとDiffusion Decoderの50 stepsが走る。
「背景だけ変えたい」「テキストを消したい」みたいな日常の軽い編集には、起動コストが重すぎる。

テキスト指示で画像を編集できるオープンウェイトモデルは、実質Qwen-Image-Edit-2511やBAGEL、OmniGen2に限られる。
LLaDA2.0-Uniもそこに加わりはするが、編集「のために」使うモデルではなさそうだ。
M1 MaxでQwen Image Editを回した経験からしても、軽い編集を回すなら2511版をComfyUIに載せるほうがまだ手が早い。