技術 約14分で読めます

Together AIがMamba-3を発表、長文推論でTransformer比約7倍の速度と複素数値SSM

Together AIが公開した Mamba-3 は、前作Mamba-2とは異なる設計思想で作られた新世代SSM(State Space Model、状態空間モデル)だ。Mamba-2が訓練速度の最適化を主眼としていたのに対し、Mamba-3は推論時の遅延削減を第一目標として再設計されている。ICLR 2026のカンファレンスペーパーとして採択済み。

論文はarXiv:2603.15569、コードはgithub.com/state-spaces/mambaで公開。

SSMとは何か、Transformerの推論コスト問題

現在のLLM(ChatGPT、Claude、Geminiなど)はほぼすべてTransformerアーキテクチャで動いている。Transformerの中核にあるのがAttention機構で、これは「入力テキストのすべてのトークン同士の関係性を計算する」仕組みだ。

この仕組みは精度が高い反面、致命的な弱点がある。テキストが長くなると計算量が二次関数的に爆発する。

トークン数    Attentionの計算量(概算)
  1,000       1,000,000(100万)
  4,000      16,000,000(1600万)
 16,000     256,000,000(2.56億)
128,000  16,384,000,000(163億)

トークン数が4倍になると計算量が16倍になる。これが長文の推論が遅い根本原因で、APIの利用料金が高い理由でもある。

SSM(状態空間モデル) はこの問題を根本から解決しようとするアプローチだ。Attentionのように「すべてのトークン同士を見比べる」のではなく、固定サイズの「状態」を更新しながら読み進める

わかりやすく言うと、TransformerとSSMの違いは「データベース」と「メモリ」の違いに近い。

  • Transformer = データベース型: 過去に読んだすべてのトークンをKVキャッシュとして保存しておき、必要な時にクエリして取り出す。正確だがストレージ(メモリ)を食う
  • SSM = メモリ型: 固定サイズの記憶を更新しながら読み進める。人間が本を読む時のイメージに近い——全ページを同時に見比べるのではなく、今まで読んだ内容の要約(状態)を持ちながら1ページずつ読み進める。記憶容量が一定なので省メモリだが、細部は忘れる
graph LR
    subgraph Transformer
        T1[トークン1] <--> T2[トークン2]
        T1 <--> T3[トークン3]
        T1 <--> T4[トークン4]
        T2 <--> T3
        T2 <--> T4
        T3 <--> T4
    end

    subgraph SSM
        S1[トークン1] --> State1[状態更新]
        State1 --> S2[トークン2]
        S2 --> State2[状態更新]
        State2 --> S3[トークン3]
        S3 --> State3[状態更新]
        State3 --> S4[トークン4]
    end

SSMの計算量はトークン数に対して線形(トークン数が4倍になると計算量も4倍)なので、長文になるほどTransformerとの速度差が開く。これが16384トークンで約7倍の速度差が出る理由だ。

SSMの歴史(S4 → Mamba → Mamba-2 → Mamba-3)

SSMの研究は段階的に進化してきた。中心人物はCMUのAlbert Gu(SSM研究の創始者、HiPPO・S4・Mambaの生みの親、現Cartesia AI Chief Scientist)とプリンストン大学のTri Dao(FlashAttentionの開発者でもある、現Together AI Chief Scientist)。二人はスタンフォード博士課程で共同研究した仲で、Mambaシリーズを共同指導している。

モデル時期主な貢献
S42021年SSMで長距離依存を効率的に扱えることを示した最初のブレークスルー。音声・時系列で成果
Mamba2023年末「選択メカニズム」を導入し、入力に応じてSSMのパラメータを動的に変化させた。LLMスケールでTransformerに匹敵する品質を初めて達成
Mamba-22024年SSMとAttentionの数学的な等価性を発見し、既存のGPUカーネル(Flashなど)を流用できる形に再構成。訓練速度が大幅に改善
Mamba-32026年推論遅延の削減にフォーカス。複素数値状態と新しい離散化手法で、同じ精度を半分の状態サイズで達成

Mamba-2までは「Transformerと同じ品質を出せるか?」が焦点だった。Mamba-3ではそれを前提とした上で「実際のGPU上でどれだけ速く推論できるか」に軸足を移している。

アーキテクチャ改善

1. 指数台形離散化(Exponential Trapezoid Discretization)

SSMは元々連続時間のシステム(微分方程式)として定義されている。しかしコンピュータで計算するには離散時間(1ステップずつ)に変換する必要がある。この変換処理を「離散化」と呼ぶ。

離散化の方法によって、元の連続システムの情報がどれだけ正確に保存されるかが変わる。身近な例えで言えば、動画のフレームレートに近い。30fpsと60fpsでは同じ動きでも滑らかさが違う。離散化の精度が高いほど、元の連続的な情報を忠実に再現できる。

離散化手法精度特徴
ZOH(Zero-Order Hold)1次Mamba初代で使用。最もシンプルだが表現力が低い。入力が各ステップ間で一定と仮定する
指数オイラー1次Mamba-2で使用。ZOHと精度は同程度だが計算効率が良い
指数台形離散化2次Mamba-3で導入。入力と状態の両方の変化を考慮するため、より複雑な系列パターンを扱える

1次から2次に精度が上がったことで何が変わるか。Mamba-2では離散化の精度不足を補うために短畳み込み(short convolution)レイヤーという補助機構が必要だった。これは直近数トークンの局所的なパターン(n-gramのような短い依存関係)を捕捉する役割を担っていた。指数台形離散化はSSM本体だけでこの情報を捉えられるため、短畳み込みレイヤーを丸ごと除去できた。論文によれば除去しても精度は落ちず、むしろわずかに改善している。レイヤーが減った分、推論パイプラインがシンプルになり速度が上がる。

2. 複素数値状態(Complex-valued States)

Mamba-2までの状態ベクトルは実数値だった。Mamba-3ではこれを複素数値に拡張している。

複素数が出てくると身構えるが、ここでのポイントは「振動パターンを効率的に表現できる」という一点に尽きる。

実数値の状態で「周期的に変化する情報」を追跡しようとすると、複数の状態変数を組み合わせる必要がある。複素数なら1つの変数で振幅と位相の両方を持てるので、同じ情報量をより少ない状態変数で表現できる。これがMamba-3が「半分の状態サイズで同等のperplexity」を達成できた主因だ。

状態の型状態サイズ表現できるパターン
実数値(Mamba-2)N指数的な減衰・成長
複素数値(Mamba-3)N/2指数的な減衰・成長 + 振動・位相回転

具体例を挙げると、自然言語には「対応する括弧」「if-then構造」「主語-述語の呼応」など、離れた位置にある要素が対応するパターンが多い。こうした離れた依存関係を追跡するには、途中の無関係なトークンを読んでいる間も「何かを待っている」という状態を保持する必要がある。複素数の位相回転はこの「保持」を自然に表現できる。

この効果は状態追跡ベンチマークで劇的に現れた。

タスクMamba-3Mamba-2
パリティ判定(奇偶の追跡)100%0.9%
算術(括弧なし)98.51%47.81%
算術(括弧あり)87.75%0.88%

パリティ判定は「0と1の列を読みながら、今まで1が偶数個か奇数個かを追跡する」タスク。シンプルに見えるが、状態を長いシーケンスにわたって正確に維持する必要があり、SSMにとっては難題だった。Mamba-2の0.9%(ほぼランダム)からMamba-3の100%への跳躍は、複素数値状態がいかに状態追跡能力を向上させたかを示している。

実装面では、複素数状態行列をブロック対角2x2回転行列として表現し、実数ベクトルに適用する「RoPEトリック」を使っている。位置エンコーディングにはTransformerで広く使われているRoPE(Rotary Position Embedding)を採用しており、複素数値の表現と数学的に整合する。RoPEを外すとパリティタスクの精度が2.27%まで崩壊するため、この仕組みが不可欠であることが確認されている。

3. MIMO SSM(Multi-Input Multi-Output)

Mamba-2はSISO(Single-Input Single-Output)構造だった。これは各チャンネル(特徴次元)が独立した別々のSSMとして動作する設計で、チャンネルAの状態がチャンネルBに影響を与えることはない。

graph TD
    subgraph SISO構造
        direction LR
        C1[チャンネル1] --> SSM1[SSM] --> O1[出力1]
        C2[チャンネル2] --> SSM2[SSM] --> O2[出力2]
        C3[チャンネル3] --> SSM3[SSM] --> O3[出力3]
    end

    subgraph MIMO構造
        direction LR
        M1[チャンネル1] --> MSSM[SSM<br/>r=4] --> MO1[出力1]
        M2[チャンネル2] --> MSSM --> MO2[出力2]
        M3[チャンネル3] --> MSSM --> MO3[出力3]
    end

MIMO(Multi-Input Multi-Output)ではチャンネル間に相互作用がある。入力チャンネルの組み合わせが出力に影響し合う。r=4は「ランク4」で、完全結合ではなく低ランク近似による結合——全チャンネルを完全に結合すると計算コストが爆発するので、4次元の部分空間を通じて情報を交換する。

TransformerのAttentionはもともとヘッド内で全次元が相互作用するので、この機能を持っている。SISOのSSMにはそれがなかったため、MIMOで補完した形だ。

MIMOの技術的に面白いポイントは、FLOPs(浮動小数点演算数)自体はMamba-2比で最大4倍に増えるのに、実測の遅延はほぼ同等であること。これはGPUのボトルネックが「計算」から「メモリアクセス」に移行する現象(メモリバウンド → コンピュートバウンド)を利用している。MIMOによって演算強度(arithmetic intensity、1バイトのメモリアクセスあたりの計算回数)が約2.5 ops/byteからΘ(R) ops/byteに向上し、GPUの計算ユニットをより有効に使えるようになった。

実測では、MIMOはSISOより精度が+1.2pt向上する代わりに、デコード遅延がわずかに増える(約8%)。

その他の変更点として、訓練安定化のための QKNorm 正規化層の追加、MLP層をTransformer・Gated DeltaNetと共通の標準設計に統一、がある。

Mamba-2とMamba-3の比較

項目Mamba-2Mamba-3
設計思想訓練速度の最大化推論遅延の最小化
離散化指数オイラー(1次精度)指数台形(2次精度)
状態の型実数値複素数値(RoPEで実装)
入出力構造SISOのみSISO + MIMO選択可
短畳み込みあり(必須)不要(除去)
正規化RMSNormQKNorm
状態サイズ128でのperplexityベースライン状態サイズ64で同等(半分)
パリティタスク0.9%100%
単一トークンデコード遅延0.203ms0.156ms

推論速度のベンチマーク(H100 GPU、1.5Bモデル)

プリフィル+デコード遅延(秒)の比較。「プリフィル」は入力テキストの処理、「デコード」は出力トークンの逐次生成。バッチサイズ128で測定。

モデル51210242048409616384
Transformer (vLLM, Llama-3.2-1B)4.459.6020.3758.64976.50
Mamba-24.669.3218.6237.22149.02
Mamba-3 SISO4.398.7817.5735.11140.61
Mamba-3 MIMO (r=4)4.749.4818.9637.85151.81

短い入力(512トークン)では差がほとんどない。差が出るのは長文で、16384トークンだとTransformerが約16分かかるところ、Mamba-3 SISOは約2.3分で約6.9倍の速度差になる。Transformerの遅延は4096→16384で16.7倍に増加(二次関数的)するのに対し、Mamba-3 SISOは4.0倍(線形的)にとどまる。

SISO変種は全シーケンス長で最速を達成。MIMO変種はデコード遅延がわずかに増えるが、その代わりに精度が上がるため、用途に応じて選択できる。

精度のベンチマーク(1.5Bスケール)

下流タスクの平均精度。

モデルARC-EARC-CHellaSwagPIQAWinoGrandeOBQA平均
Transformer74.040.460.673.858.729.655.4
Gated DeltaNet75.341.261.374.358.031.655.8
Mamba-275.341.861.473.657.532.655.7
Mamba-3 SISO75.942.761.973.659.432.056.4
Mamba-3 MIMO76.544.562.375.360.632.657.6

各ベンチマークの内容は以下の通り。

ベンチマーク内容
ARC-E / ARC-C小学校レベルの科学問題(EasyとChallenge)。常識推論を測る
HellaSwag文の続きを4択から選ぶ。日常的な状況の理解力
PIQA物理的な直感(「コップを温めるには?」等)
WinoGrande代名詞の指示先を解決する。文脈理解力
OBQA小学校レベルの理科知識

Mamba-3 MIMOはTransformer比+2.2pt、Mamba-2比+1.9ptの改善。1.5Bスケールで「SSMはTransformerより精度が劣る」という従来の常識を覆している。

SSMが苦手なタスク(正確な情報検索)

検索ベンチマークでは依然としてTransformerに劣る。SSMは固定サイズの状態に情報を圧縮するという本質的な制約がある。

Transformerは過去のすべてのトークンをKVキャッシュとして保持するため、「1000トークン前の正確な値」を取り出せる。SSMは固定サイズの状態しか持たないので、古い情報は新しい情報に上書きされていく。人間の記憶と同じで、直近の内容は正確に覚えているが、遠い過去の細部は曖昧になる。

たとえば「この文書の3段落目に書かれていた数値を正確に答えよ」「長い入力テキストの中から特定のキーワードを含む箇所をすべて抽出せよ」のようなタスクや、RAG(検索拡張生成)で大量の検索結果から正確に引用する用途が該当する。

論文では「将来的にはSSMとGlobal Attentionを組み合わせたハイブリッドモデルが主流になる」との見解を示している。これは既に業界の潮流になっている(後述)。

カーネル実装の多層構成

速度・使いやすさ・精度制御のバランスを取るため、処理フェーズごとに異なるGPUカーネル実装を使い分けている。

GPUカーネルとは、GPU上で実行される低レベルの計算プログラムのこと。同じ数学的な演算でも、書き方やメモリアクセスパターンの違いで実行速度が大幅に変わる。

カーネル用途なぜこの実装か
TritonプリフィルカーネルPythonライクな記述でGPUカーネルが書ける。開発速度と可読性を優先
TileLangMIMO用MIMOはチャンネル間の相互作用があるため、メモリ階層(レジスタ→共有メモリ→グローバルメモリ)の精密な制御が必要。TileLangはこのタイル単位のメモリ管理を宣言的に記述できる
CuTe DSLデコードカーネルNVIDIAのHopper世代GPU(H100等)固有の命令セット(TMAなど)を直接利用し、デコード時のレイテンシを最小化

H100等のHopper世代GPUに最適化されたデコードカーネルを持つ点も、実測の推論速度に貢献している。逆に言えば、古いGPU(A100など)ではこの速度は出ない可能性がある。

SSMを実際に使っている企業・製品

Mamba-3は1.5Bスケールの研究成果だが、SSMアーキテクチャ自体は既に複数の企業が商用レベルで採用している。「SSMは研究段階」というイメージはもう古い。

SSM-Transformerハイブリッドモデル

SSMの速度とTransformerの検索精度を両取りするハイブリッド構成が主流になりつつある。

企業製品規模特徴
AI21 LabsJamba 1.5398B(94Bアクティブ)MoE初の商用SSMハイブリッド。256Kコンテキスト対応。NVIDIA NIMとして提供されており、API経由で利用可能
NVIDIANemotron-H8B / 47B / 56BAttention層の92%をMamba2ブロックに置換。Transformer比3倍のスループットを達成
NVIDIANemotron 3 Super120B(12Bアクティブ)MoEエージェント推論向けに設計
IBMBamba → Granite 4.08BLlama-3.1 8Bと同等の精度を1/7のデータで達成。次世代Granite 4.0に技術統合予定
ZyphraZamba21.2B / 2.7B / 7.4Bオンデバイス向け。推論速度2倍、メモリ27%削減

純粋SSMモデル

企業製品規模特徴
TII(UAE)Falcon Mamba 7B7BオープンソースSSM最高性能。Llama-3.1 8B・Mistral 7Bを上回る精度
Cartesia AISonic 3(TTS) / Rene(LLM)1.3Bリアルタイム音声AI。42言語対応。Albert Gu(SSM創始者)がChief Scientist

注目すべきは、NVIDIAが自社の推論スタック(Nemotron-H)でSSMハイブリッドを採用していること。GPU販売元がTransformerの代替を推進しているのは、SSMが「GPUの使い方をより効率化する」アーキテクチャだからだ。同じハードウェアでより多くのリクエストを捌ければ、GPU需要は減るどころか新しいユースケースが開拓される。

誰にとって何が嬉しいか

LLM APIプロバイダー(Together AI、AWS Bedrock等)

同じGPUハードウェアで処理できるリクエスト数が増える。特に長文の入出力が多いワークロード(文書要約、コード生成、長文翻訳など)で、1GPUあたりのスループットが大幅に改善する。これはサービスの利用料金の低下に直結する。

具体的な数字で言えば、16384トークンの処理でTransformerの約7倍速いということは、同じGPUで7倍近いリクエストを処理できる可能性がある。クラウドGPUの利用料金がLLMサービスの主要コストである以上、このインパクトは大きい。

エッジ・オンデバイス推論

SSMの固定サイズ状態は、メモリが限られるデバイス(スマートフォン、IoT機器)と相性がいい。TransformerのKVキャッシュはシーケンス長に比例してメモリを消費するが、SSMは入力がどれだけ長くても状態サイズが一定。

ZyphraのZamba2がまさにこの路線で、1.2B〜7.4Bのモデルをオンデバイス推論向けに最適化し、メモリ27%削減を達成している。スマートフォン上で動くLLMの品質を「TransformerではメモリがきついからSSMで」という選択肢が現実的になっている。

リアルタイム音声・動画処理

Mamba系列のアーキテクチャはもともと連続信号(音声・センサーデータなど)の処理に適性がある。S4が最初に成果を出したのも音声認識と時系列予測だった。Mamba-3の低レイテンシ推論は、リアルタイム音声認識・同時通訳・動画のリアルタイム字幕生成などで、Transformerより低遅延で処理できる可能性がある。

Cartesia AIのSonic 3は既にSSMベースのリアルタイム音声合成(TTS)を42言語で提供しており、この分野でのSSMの実用性は証明済みだ。

長文コンテキストが必要なアプリケーション

トークン数が増えてもレイテンシが線形にしか増えないため、リポジトリ全体を入力するコードベース解析、書籍丸ごとの要約・翻訳、長時間の会話履歴を保持するチャットボットなど、Transformerでは非現実的だった長さの入力を実用的な時間で処理できる。

AI21 LabsのJamba 1.5が256Kコンテキストに対応しているのは、SSMハイブリッドだからこそ実現できている。Transformerだけで256Kトークンを処理しようとすると、KVキャッシュだけで数十GBのメモリを消費する。

現時点での制約

ただし、すぐにTransformerを置き換えるわけではない。

  • 前述の通り、正確な情報検索が必要なタスクではTransformerに劣る。RAGパイプラインの回答生成など、正確な引用が求められる用途には不向き
  • Transformer向けの最適化ツール(vLLM、TensorRT-LLM等)やファインチューニング手法(LoRA等)の蓄積に比べ、SSM向けのエコシステムはまだ小さい。ただしNVIDIAがNemotron-HでSSMを採用したことで、ツール面の整備は加速する見込み
  • Mamba-3の論文は180M〜1.5Bの範囲で実験しており、70B〜数百Bスケールでの結果は報告されていない。AI21のJamba 1.5(398B)やNVIDIAのNemotron-H(56B)がSSMハイブリッドを大規模で動かしている実績はあるが、純粋SSMでの大規模検証はまだこれから
  • 論文自体が認めているように、SSM単体よりもSSM+Attentionのハイブリッド構成が実用上は最も有望