重み付き加算の代わりに蔵本モデルの同期で画像を生成するUn-0、ImageNet-64でFID 6.74
目次
画像生成モデルの計算といえば、入力を何層もの重み行列に通す(拡散モデルならノイズを何ステップもかけて消す)のが当たり前だった。 Un-0はその計算を差し替えて、結合した振動子が同期していく物理ダイナミクスをシミュレートし、それで画像を生成する。 2026年6月25日にUnconventional AIが公開した、結合振動子(蔵本モデル)を計算の中核に据えた、同社の知る限り初の大規模画像生成モデルだ。
性能はImageNet 64×64でFID 6.74。 今の主要手法が出発点にしていた水準で、最新のSOTAには届かないが、「物理系のシミュレーションに基づく生成モデル」としては過去最高クラスだと著者は言う。 ただし現状はB200 GPU上のシミュレーションで、売りである「GPU比1000倍の省電力」を実証する物理チップはまだ存在しない。
コードはMITライセンスで公開(GitHub unconv-ai/Un-0)、重みはCC-BY-NC-4.0(非商用)でHugging Faceに公開されている。CIFAR-10とImageNet-64の2系統が別々に学習されている。
まず蔵本モデルを動かして掴む
蔵本モデルは、たくさんの「振動子」がどう足並みを揃える(同期する)かを記述する数理モデルだ。 振動子というのは、ここでは円周上をぐるぐる回る点だと思えばいい。それぞれが自分のペース(固有周波数)で回っている。 この点どうしを「結合」で弱く繋ぐと各自バラバラに回り続けるが、結合を強くしていくと、互いに引っ張り合って回る速さが揃い、集団として位相がまとまっていく。これが同期だ。全員が同じ角度になるとは限らず、位相差を保ったまま揃うこともある。
下の図がその蔵本モデルそのものだ。点が振動子、赤い矢印が全体のまとまり具合(秩序変数 r)を表す。 スライダーで結合の強さ K を変えてみてほしい。
触ると分かるのは、K を上げても最初はほとんど変化がなく、ある閾値(臨界結合)を超えたあたりから同期が目立ちはじめることだ。 これは相転移の一種として説明できる。ただし水が0度で凍るような急な変化ではなく、臨界点を境に同期が連続的に強まっていくタイプだ(全結合・連続的な周波数分布の場合)。 ホタルの一斉明滅、机に並べたメトロノームが勝手に揃う現象、心臓のペースメーカー細胞、どれも同じ枠組みで説明される。
気になる人向けに式も置いておくが、読み飛ばして構わない。 振動子 の位相 は
で時間発展する。 が固有周波数、 が結合の強さだ。 右辺第2項が「周りと位相を揃えようとする力」で、 が大きいほど同期に向かう。 なお、これは全結合・一様結合の標準形だ。Un-0はこの を、振動子ペアごとに学習した結合行列 に置き換えた一般形(後述の「結合行列 K」)を使う。 数式まわりが不安ならAI記事のための数学シリーズも置いてある。
Un-0はこの同期で画像を作る
Un-0は、この振動子の集団を画像生成の計算装置として使う。 従来のニューラルネットとの違いは、計算の中身そのものにある。
| 計算の中身 | 進め方 | |
|---|---|---|
| 通常のニューラルネット | Σ(入力 × 重み) に非線形変換をかけ、層を重ねる | 層を順に通す(順伝播) |
| Un-0 | 位相 += Σ(結合 K × sin(位相差)) を更新し続ける | 時間をかけて発展(力学系) |
重み(結合 K)が消えるわけではない。違うのは計算の進め方で、層を順に通す代わりに、位相のズレを手がかりに時間をかけて揃え合う。
ざっくり言うと「ランダムに回りはじめた何千個もの振動子を、学習した結合に従って時間発展させ、ある時刻の状態をスナップショットして画像に変換する」という流れになる。
flowchart TD
A[ランダムな初期位相] --> B[クラス条件付け振動子が<br/>目的のクラスへ引き込む]
B --> C[学習済みダイナミクスで時間発展<br/>ODEを時刻Tまで積分]
C --> D[時刻Tの位相スナップショット<br/>=潜在表現]
D --> E[畳み込みデコーダで画素化]
E --> F[生成画像]
このフローには逐次デノイズのスケジュールがない。ランダムな初期位相から物理的に時間発展させて、時刻Tの状態を1回取り出すだけだ。
学習するのは基本的に3つだけだ。
| 学習対象 | 役割 |
|---|---|
| 結合行列 K | 振動子iが振動子jをどれだけ引っ張るか |
| 固有周波数 ω | 各振動子が本来回ろうとする速さ |
| デコーダ | 位相を画素に変換する従来型の畳み込みネットワーク |
生成時は、全振動子をランダムな位相で初期化し、別枠の「条件付け振動子」が学習済みの結合を介して指定クラス(犬、車、など)へ系を引き込む。
あとは学習したダイナミクスのまま時刻Tまで積分し、そのときの位相を潜在表現として取り出して、デコーダが画素へ起こす。
位相 は参照位相 θ_ref との差を取り、cos(θ - θ_ref), sin(θ - θ_ref) で平面上のベクトルに直してからデコーダに渡している(θ_ref の取り方はCIFARとImageNetで違う)。
役割分担の解釈が面白い。 著者はアブレーション(部品を抜き差しして効き目を測る検証)で、振動子側が生成の多様性(網羅性)を担い、デコーダ側が画質(忠実度)を担う、という分業を示唆している。 デコーダだけ(ダイナミクスなし)では画像はまともに出ず、結合をランダムに固定したリザバーよりも、学習した結合のほうが明確に強い。積分ステップを増やすほど性能が上がることからも、非線形ダイナミクスが実際に計算を担っていることが裏取りされている。
拡散モデルとの違い
拡散モデルは、ノイズだらけの画像から少しずつノイズを取り除く操作を何ステップも繰り返し、各ステップで「次にどう動くか」をネットワークがガイドする。 Un-0にはこの逐次デノイズのスケジュールもガイドもない。 乱雑な初期位相から振動子系を一定時間Tだけ物理的に時間発展させ、その時刻Tの状態を1回スナップショットするだけだ。 結合振動子の系が、クラスごとのアトラクター(落ち着く先)へ向かうような構造として解釈できる、という発想になる。
学習には「drifting loss」(Deng et al., 2026)が使われ、生成画像と本物の分布を比べるために事前学習済みのDINOv2が特徴抽出に使われている。 著者自身、学習の最大のボトルネックはこのdrifting lossの計算(従来型の画像特徴抽出器が要る)だと書いている。
性能と限界
ImageNet 64×64での結果がこれだ。
| モデル | 振動子数 | パラメータ | FID@50k |
|---|---|---|---|
| Un-0.n6656 | 6,656 | 57.17M | 8.41 |
| Un-0.n10240 | 10,240 | 129.80M | 8.01 |
| Un-0.n16384 | 16,384 | 322.44M | 6.74 |
最大モデルで16,384振動子・322M。デコーダは一貫して全パラメータの約11%で、残りが振動子側だ。 CIFAR-10では4,096振動子・19.4MでFID 約8.8。 学習はB200 GPUで、ImageNet-64の最大モデルが640 B200時間かかっている。
FID 6.74は「今の主要な生成手法がスタート地点にしていた水準」で、EDMやGDDのようなSOTAには届かない。 「Stable Diffusion級」という紹介も見かけるが、それは報道ベースの表現で、ImageNet 64×64のFIDとStable Diffusionの実用画質は直接比べられるものではない。数字は冷静に見ておく。
注意したいのは、物理計算という看板が、まだ従来型ニューラルネットに頼っている点だ。
- 学習の損失計算に事前学習済みDINOv2が要る
- 画素化に従来型の畳み込みデコーダが要る
- そして何より、全部B200 GPU上のシミュレーションで、物理チップはまだ作られていない
「GPU比1000倍の省電力」は、結合振動子をアナログCMOS回路(リング振動子)で実装し、物理そのものに計算させればデジタルの積和演算のオーバーヘッドがなくなる、という理論上の見積もりだ。 The Next Webの記事でも「シミュレーションと実チップの差は大きい」「1000倍を実証できるかはハードウェアにしか答えられない」と釘を刺されている。 会社は回路図を近く公開予定としているが、商用ハードの時期は示していない。
誰が作っているか
Unconventional AIのCEOはNaveen Rao。 元DatabricksのAI責任者で、Nervana Systems(2016年にIntelが約$400Mで買収)、MosaicML(2023年にDatabricksが約$1.3Bで買収)と当ててきた連続起業家だ。 Unconventional AIは2025年12月に$4.75億をシード調達(評価額$45億)、Lightspeedとa16zが主導し、Sequoia・Lux・DCVCのほかJeff Bezosも参加している。社員は50人未満。
「物理法則で計算するコンピュータを作る」という会社の路線にとって、Un-0はその第1弾のデモという位置づけになる。