技術 約6分で読めます

Luma AIのUni-1は理解と生成を1つのTransformerに統合した

画像生成AIといえば拡散モデル(Stable Diffusion、DALL-E、Imagen)が主流だった。理解はLLM、生成は拡散モデルという分業体制が当たり前で、OpenAIのDALL-E 3はGPT-4でプロンプトを書き換えてから拡散モデルに渡すし、GoogleのImagen 3もGeminiで推論してから生成パイプラインに流す。

Luma AIが2026年3月5日に発表したUni-1は、この分業をやめた。画像の理解と生成を1つのdecoder-only autoregressive transformerで処理する。拡散モデルは使わない。

アーキテクチャ: テキストも画像も同じシーケンス

Uni-1の設計思想はシンプルで、テキストトークンと画像パッチを共有語彙空間にトークン化し、1つの連続したインターリーブドシーケンスとして処理する。

graph LR
    A[テキスト<br/>トークン] --> C[共有語彙空間で<br/>トークン化]
    B[画像パッチ] --> C
    C --> D[Decoder-only<br/>Transformer]
    D --> E[テキスト出力]
    D --> F[画像出力]

通常の画像生成モデルが「ノイズから画像を引き出す」のに対し、Uni-1はLLMが文章を生成するのと同じようにトークンを逐次生成する。入力にも出力にもテキストと画像の両方が使える。

これにより、生成の「前」だけでなく「最中」にも構造化された推論を実行できる。DALL-E 3がプロンプト書き換えという前処理で推論を済ませるのに対し、Uni-1は生成プロセス自体に推論が組み込まれている。

訓練データ

音声、動画、画像、言語、空間推論のデータで同時に訓練されている。画像生成の訓練が視覚理解の性能も向上させるという双方向の学習効果が確認されており、領域、オブジェクト、空間的関係、レイアウトの細粒度な理解が改善される。

4種類の推論能力

Uni-1が従来の画像生成モデルと差別化しているのは、推論(reasoning)の能力。4つのカテゴリに分かれる。

推論タイプ内容
時間的(temporal)時間経過に伴う一貫性の維持1枚のポートレートから老化シーケンスを生成
因果的(causal)因果関係を理解した生成車の衝突→爆発のダイナミクス
空間的(spatial)常識的なシーン補完、配置部屋の一部から残りを補完
論理的(logical)複雑なマルチパート指示の分解「赤い帽子で青い服の人が緑の車の前に立つ」

ベンチマーク: RISEBenchで首位

RISEBench(Reasoning-Informed Visual Editing)は、推論能力を伴う画像編集・生成を評価するベンチマーク。時間的・因果的・空間的・論理的の4カテゴリで評価される。

モデル総合スコア
Uni-10.51
Nano Banana 2(Google)僅差で2位
GPT Image 1.5(OpenAI)僅差で3位

オブジェクト認識(ODinW-13ベンチマーク)でもGoogle Gemini 3 Proにほぼ匹敵する性能を示している。

他モデルとの比較

複雑な指示への追従ではUni-1が強い。「赤い帽子で青い服の人が緑の車の前に立つ」のようなマルチパート指示でMidjourneyやDALL-E 3が要素を落としがちなところ、Uni-1は推論で分解してから生成するので抜けにくい。一方、純粋な美的品質ではMidjourneyが上。アーティスティックな出力を求めるならMidjourneyのほうが向いている。

Imagen 3は外部のGeminiに推論を依存し、DALL-E 3はGPT-4によるプロンプト書き換えステップが別途必要。Uni-1は同じモデルの同じ重みで理解と生成を処理するので、パイプライン間の情報ロスがない。

弱点

高解像度生成では拡散モデルより遅くなる可能性がある。autoregressiveにトークンを1つずつ生成するため、ピクセル数が増えるほど不利になる。ただしアーキテクチャの最適化でギャップは縮小中とのこと。

使い方

Uni-1を使う方法は2つある。Web UIのLuma Agentsと、開発者向けのREST API。

Luma Agents(Web UI)

Luma AgentsはUni-1を基盤にしたクリエイティブAIプラットフォーム。ブラウザからテキストプロンプトを入力して画像を生成できる。単発の画像生成だけでなく、テキスト・画像・動画・音声をまたいだクリエイティブ制作を一括で処理する設計になっている。

使い方の流れはこんな感じ。

  1. app.lumalabs.aiにサインイン
  2. テキストプロンプトを入力して画像を生成
  3. 生成結果に対してリファイン指示を出す(マルチターン対応)
  4. 必要ならリファレンス画像やスタイル画像をアップロードして方向性を指定

Luma Agentsは単なる画像生成UIではなく、裏側でRay3.14、Google Veo 3、OpenAI Sora 2、ElevenLabsなど8種類以上の外部モデルにルーティングする機能も持っている。動画や音声が必要なときは自動で適切なモデルを選択する。reasoning_effortパラメータで推論の深さを調整でき、複雑なブリーフほど高く設定すると出力品質が上がる。

Dream Machine API(REST API)

開発者はDream Machine API経由でプログラムからUni-1にアクセスできる。認証はBearerトークン方式。

# APIキーの取得: Lumaダッシュボードで生成
# 画像生成リクエストの例
curl --request POST \
  --url https://api.lumalabs.ai/dream-machine/v1/generations/image \
  --header 'authorization: Bearer luma-xxxx' \
  --header 'content-type: application/json' \
  --data '{
    "prompt": "A cat wearing a spacesuit on Mars",
    "aspect_ratio": "16:9"
  }'

リクエストを送るとIDが返ってくるので、そのIDで生成状態をポーリングして完了を待つ。Python SDKとJavaScript SDKも用意されている。

対応機能はテキストから画像生成、画像を入力にした編集、スタイルリファレンス、キャラクターリファレンスなど。アスペクト比は1:1、3:4、4:3、9:16、16:9、9:21、21:9から選べる。

APIを利用するにはPlusプラン以上のサブスクリプションが必要。

料金

Luma AIのサブスクリプションプランは4段階。

プラン月額年額(月あたり)Agents利用枠
Plus$302525(300/年)基本枠
Pro$907575(900/年)Plusの4倍
Ultra$300250250(3,000/年)Plusの15倍
Enterprise要問い合わせ要問い合わせカスタム

無料トライアルクレジットがあるので、まず試してみることはできる。

画像生成の従量コストについて、Luma AIの料金ページではSeedream、Nano Banana、GPT Image 1.5など他社モデルの単価(1〜60クレジット/枚、解像度による)は公開されているが、Uni-1単体の1枚あたりのクレジット消費量は2026年3月時点で未公表。サブスクリプション内のクレジットで賄う形式だが、Uni-1がクレジットをどれだけ消費するかの明確な数字は出ていない。月額プランのクレジットは翌月に繰り越せず、追加クレジットは$4/1,200クレジットで購入可能(12ヶ月有効)。

エンタープライズについてはPublicis Groupe、Serviceplan、Adidas、Mazda、Humainなどが顧客として名前が出ている。ある大手ブランドの年間1500万ドル規模のキャンペーン素材を40時間・2万ドル以下で再現したという事例がアピールされている。

拡散モデルからTransformerへ

Uni-1だけの話ではない。Google(Nano Banana Pro)、OpenAI(GPT Image 1.5)も拡散モデルを捨ててTransformerベースに移行している。

graph TD
    A[従来のパイプライン] --> B[LLMで推論]
    B --> C[拡散モデルで生成]
    D[Uni-1のアプローチ] --> E[単一Transformerで<br/>推論と生成を統合]
    style A fill:#f9f,stroke:#333
    style D fill:#9ff,stroke:#333

Luma AIのロードマップでは、今後Uni-1を動画生成、音声エージェント、インタラクティブなワールドシミュレーターへ拡張する予定とのこと。