Together AIがMamba-3を発表、長文推論でTransformer比約7倍の速度と複素数値SSM
Together AIが公開した Mamba-3 は、前作Mamba-2とは異なる設計思想で作られた新世代SSM(State Space Model、状態空間モデル)だ。Mamba-2が訓練速度の最適化を主眼としていたのに対し、Mamba-3は推論時の遅延削減を第一目標として再設計されている。ICLR 2026のカンファレンスペーパーとして採択済み。
論文はarXiv:2603.15569、コードはgithub.com/state-spaces/mambaで公開。
SSMとは何か、Transformerの推論コスト問題
現在のLLM(ChatGPT、Claude、Geminiなど)はほぼすべてTransformerアーキテクチャで動いている。Transformerの中核にあるのがAttention機構で、これは「入力テキストのすべてのトークン同士の関係性を計算する」仕組みだ。
この仕組みは精度が高い反面、致命的な弱点がある。テキストが長くなると計算量が二次関数的に爆発する。
トークン数 Attentionの計算量(概算)
1,000 1,000,000(100万)
4,000 16,000,000(1600万)
16,000 256,000,000(2.56億)
128,000 16,384,000,000(163億)
トークン数が4倍になると計算量が16倍になる。これが長文の推論が遅い根本原因で、APIの利用料金が高い理由でもある。
SSM(状態空間モデル) はこの問題を根本から解決しようとするアプローチだ。Attentionのように「すべてのトークン同士を見比べる」のではなく、固定サイズの「状態」を更新しながら読み進める。
わかりやすく言うと、TransformerとSSMの違いは「データベース」と「メモリ」の違いに近い。
- Transformer = データベース型: 過去に読んだすべてのトークンをKVキャッシュとして保存しておき、必要な時にクエリして取り出す。正確だがストレージ(メモリ)を食う
- SSM = メモリ型: 固定サイズの記憶を更新しながら読み進める。人間が本を読む時のイメージに近い——全ページを同時に見比べるのではなく、今まで読んだ内容の要約(状態)を持ちながら1ページずつ読み進める。記憶容量が一定なので省メモリだが、細部は忘れる
graph LR
subgraph Transformer
T1[トークン1] <--> T2[トークン2]
T1 <--> T3[トークン3]
T1 <--> T4[トークン4]
T2 <--> T3
T2 <--> T4
T3 <--> T4
end
subgraph SSM
S1[トークン1] --> State1[状態更新]
State1 --> S2[トークン2]
S2 --> State2[状態更新]
State2 --> S3[トークン3]
S3 --> State3[状態更新]
State3 --> S4[トークン4]
end
SSMの計算量はトークン数に対して線形(トークン数が4倍になると計算量も4倍)なので、長文になるほどTransformerとの速度差が開く。これが16384トークンで約7倍の速度差が出る理由だ。
SSMの歴史(S4 → Mamba → Mamba-2 → Mamba-3)
SSMの研究は段階的に進化してきた。中心人物はCMUのAlbert Gu(SSM研究の創始者、HiPPO・S4・Mambaの生みの親、現Cartesia AI Chief Scientist)とプリンストン大学のTri Dao(FlashAttentionの開発者でもある、現Together AI Chief Scientist)。二人はスタンフォード博士課程で共同研究した仲で、Mambaシリーズを共同指導している。
| モデル | 時期 | 主な貢献 |
|---|---|---|
| S4 | 2021年 | SSMで長距離依存を効率的に扱えることを示した最初のブレークスルー。音声・時系列で成果 |
| Mamba | 2023年末 | 「選択メカニズム」を導入し、入力に応じてSSMのパラメータを動的に変化させた。LLMスケールでTransformerに匹敵する品質を初めて達成 |
| Mamba-2 | 2024年 | SSMとAttentionの数学的な等価性を発見し、既存のGPUカーネル(Flashなど)を流用できる形に再構成。訓練速度が大幅に改善 |
| Mamba-3 | 2026年 | 推論遅延の削減にフォーカス。複素数値状態と新しい離散化手法で、同じ精度を半分の状態サイズで達成 |
Mamba-2までは「Transformerと同じ品質を出せるか?」が焦点だった。Mamba-3ではそれを前提とした上で「実際のGPU上でどれだけ速く推論できるか」に軸足を移している。
アーキテクチャ改善
1. 指数台形離散化(Exponential Trapezoid Discretization)
SSMは元々連続時間のシステム(微分方程式)として定義されている。しかしコンピュータで計算するには離散時間(1ステップずつ)に変換する必要がある。この変換処理を「離散化」と呼ぶ。
離散化の方法によって、元の連続システムの情報がどれだけ正確に保存されるかが変わる。身近な例えで言えば、動画のフレームレートに近い。30fpsと60fpsでは同じ動きでも滑らかさが違う。離散化の精度が高いほど、元の連続的な情報を忠実に再現できる。
| 離散化手法 | 精度 | 特徴 |
|---|---|---|
| ZOH(Zero-Order Hold) | 1次 | Mamba初代で使用。最もシンプルだが表現力が低い。入力が各ステップ間で一定と仮定する |
| 指数オイラー | 1次 | Mamba-2で使用。ZOHと精度は同程度だが計算効率が良い |
| 指数台形離散化 | 2次 | Mamba-3で導入。入力と状態の両方の変化を考慮するため、より複雑な系列パターンを扱える |
1次から2次に精度が上がったことで何が変わるか。Mamba-2では離散化の精度不足を補うために短畳み込み(short convolution)レイヤーという補助機構が必要だった。これは直近数トークンの局所的なパターン(n-gramのような短い依存関係)を捕捉する役割を担っていた。指数台形離散化はSSM本体だけでこの情報を捉えられるため、短畳み込みレイヤーを丸ごと除去できた。論文によれば除去しても精度は落ちず、むしろわずかに改善している。レイヤーが減った分、推論パイプラインがシンプルになり速度が上がる。
2. 複素数値状態(Complex-valued States)
Mamba-2までの状態ベクトルは実数値だった。Mamba-3ではこれを複素数値に拡張している。
複素数が出てくると身構えるが、ここでのポイントは「振動パターンを効率的に表現できる」という一点に尽きる。
実数値の状態で「周期的に変化する情報」を追跡しようとすると、複数の状態変数を組み合わせる必要がある。複素数なら1つの変数で振幅と位相の両方を持てるので、同じ情報量をより少ない状態変数で表現できる。これがMamba-3が「半分の状態サイズで同等のperplexity」を達成できた主因だ。
| 状態の型 | 状態サイズ | 表現できるパターン |
|---|---|---|
| 実数値(Mamba-2) | N | 指数的な減衰・成長 |
| 複素数値(Mamba-3) | N/2 | 指数的な減衰・成長 + 振動・位相回転 |
具体例を挙げると、自然言語には「対応する括弧」「if-then構造」「主語-述語の呼応」など、離れた位置にある要素が対応するパターンが多い。こうした離れた依存関係を追跡するには、途中の無関係なトークンを読んでいる間も「何かを待っている」という状態を保持する必要がある。複素数の位相回転はこの「保持」を自然に表現できる。
この効果は状態追跡ベンチマークで劇的に現れた。
| タスク | Mamba-3 | Mamba-2 |
|---|---|---|
| パリティ判定(奇偶の追跡) | 100% | 0.9% |
| 算術(括弧なし) | 98.51% | 47.81% |
| 算術(括弧あり) | 87.75% | 0.88% |
パリティ判定は「0と1の列を読みながら、今まで1が偶数個か奇数個かを追跡する」タスク。シンプルに見えるが、状態を長いシーケンスにわたって正確に維持する必要があり、SSMにとっては難題だった。Mamba-2の0.9%(ほぼランダム)からMamba-3の100%への跳躍は、複素数値状態がいかに状態追跡能力を向上させたかを示している。
実装面では、複素数状態行列をブロック対角2x2回転行列として表現し、実数ベクトルに適用する「RoPEトリック」を使っている。位置エンコーディングにはTransformerで広く使われているRoPE(Rotary Position Embedding)を採用しており、複素数値の表現と数学的に整合する。RoPEを外すとパリティタスクの精度が2.27%まで崩壊するため、この仕組みが不可欠であることが確認されている。
3. MIMO SSM(Multi-Input Multi-Output)
Mamba-2はSISO(Single-Input Single-Output)構造だった。これは各チャンネル(特徴次元)が独立した別々のSSMとして動作する設計で、チャンネルAの状態がチャンネルBに影響を与えることはない。
graph TD
subgraph SISO構造
direction LR
C1[チャンネル1] --> SSM1[SSM] --> O1[出力1]
C2[チャンネル2] --> SSM2[SSM] --> O2[出力2]
C3[チャンネル3] --> SSM3[SSM] --> O3[出力3]
end
subgraph MIMO構造
direction LR
M1[チャンネル1] --> MSSM[SSM<br/>r=4] --> MO1[出力1]
M2[チャンネル2] --> MSSM --> MO2[出力2]
M3[チャンネル3] --> MSSM --> MO3[出力3]
end
MIMO(Multi-Input Multi-Output)ではチャンネル間に相互作用がある。入力チャンネルの組み合わせが出力に影響し合う。r=4は「ランク4」で、完全結合ではなく低ランク近似による結合——全チャンネルを完全に結合すると計算コストが爆発するので、4次元の部分空間を通じて情報を交換する。
TransformerのAttentionはもともとヘッド内で全次元が相互作用するので、この機能を持っている。SISOのSSMにはそれがなかったため、MIMOで補完した形だ。
MIMOの技術的に面白いポイントは、FLOPs(浮動小数点演算数)自体はMamba-2比で最大4倍に増えるのに、実測の遅延はほぼ同等であること。これはGPUのボトルネックが「計算」から「メモリアクセス」に移行する現象(メモリバウンド → コンピュートバウンド)を利用している。MIMOによって演算強度(arithmetic intensity、1バイトのメモリアクセスあたりの計算回数)が約2.5 ops/byteからΘ(R) ops/byteに向上し、GPUの計算ユニットをより有効に使えるようになった。
実測では、MIMOはSISOより精度が+1.2pt向上する代わりに、デコード遅延がわずかに増える(約8%)。
その他の変更点として、訓練安定化のための QKNorm 正規化層の追加、MLP層をTransformer・Gated DeltaNetと共通の標準設計に統一、がある。
Mamba-2とMamba-3の比較
| 項目 | Mamba-2 | Mamba-3 |
|---|---|---|
| 設計思想 | 訓練速度の最大化 | 推論遅延の最小化 |
| 離散化 | 指数オイラー(1次精度) | 指数台形(2次精度) |
| 状態の型 | 実数値 | 複素数値(RoPEで実装) |
| 入出力構造 | SISOのみ | SISO + MIMO選択可 |
| 短畳み込み | あり(必須) | 不要(除去) |
| 正規化 | RMSNorm | QKNorm |
| 状態サイズ128でのperplexity | ベースライン | 状態サイズ64で同等(半分) |
| パリティタスク | 0.9% | 100% |
| 単一トークンデコード遅延 | 0.203ms | 0.156ms |
推論速度のベンチマーク(H100 GPU、1.5Bモデル)
プリフィル+デコード遅延(秒)の比較。「プリフィル」は入力テキストの処理、「デコード」は出力トークンの逐次生成。バッチサイズ128で測定。
| モデル | 512 | 1024 | 2048 | 4096 | 16384 |
|---|---|---|---|---|---|
| Transformer (vLLM, Llama-3.2-1B) | 4.45 | 9.60 | 20.37 | 58.64 | 976.50 |
| Mamba-2 | 4.66 | 9.32 | 18.62 | 37.22 | 149.02 |
| Mamba-3 SISO | 4.39 | 8.78 | 17.57 | 35.11 | 140.61 |
| Mamba-3 MIMO (r=4) | 4.74 | 9.48 | 18.96 | 37.85 | 151.81 |
短い入力(512トークン)では差がほとんどない。差が出るのは長文で、16384トークンだとTransformerが約16分かかるところ、Mamba-3 SISOは約2.3分で約6.9倍の速度差になる。Transformerの遅延は4096→16384で16.7倍に増加(二次関数的)するのに対し、Mamba-3 SISOは4.0倍(線形的)にとどまる。
SISO変種は全シーケンス長で最速を達成。MIMO変種はデコード遅延がわずかに増えるが、その代わりに精度が上がるため、用途に応じて選択できる。
精度のベンチマーク(1.5Bスケール)
下流タスクの平均精度。
| モデル | ARC-E | ARC-C | HellaSwag | PIQA | WinoGrande | OBQA | 平均 |
|---|---|---|---|---|---|---|---|
| Transformer | 74.0 | 40.4 | 60.6 | 73.8 | 58.7 | 29.6 | 55.4 |
| Gated DeltaNet | 75.3 | 41.2 | 61.3 | 74.3 | 58.0 | 31.6 | 55.8 |
| Mamba-2 | 75.3 | 41.8 | 61.4 | 73.6 | 57.5 | 32.6 | 55.7 |
| Mamba-3 SISO | 75.9 | 42.7 | 61.9 | 73.6 | 59.4 | 32.0 | 56.4 |
| Mamba-3 MIMO | 76.5 | 44.5 | 62.3 | 75.3 | 60.6 | 32.6 | 57.6 |
各ベンチマークの内容は以下の通り。
| ベンチマーク | 内容 |
|---|---|
| ARC-E / ARC-C | 小学校レベルの科学問題(EasyとChallenge)。常識推論を測る |
| HellaSwag | 文の続きを4択から選ぶ。日常的な状況の理解力 |
| PIQA | 物理的な直感(「コップを温めるには?」等) |
| WinoGrande | 代名詞の指示先を解決する。文脈理解力 |
| OBQA | 小学校レベルの理科知識 |
Mamba-3 MIMOはTransformer比+2.2pt、Mamba-2比+1.9ptの改善。1.5Bスケールで「SSMはTransformerより精度が劣る」という従来の常識を覆している。
SSMが苦手なタスク(正確な情報検索)
検索ベンチマークでは依然としてTransformerに劣る。SSMは固定サイズの状態に情報を圧縮するという本質的な制約がある。
Transformerは過去のすべてのトークンをKVキャッシュとして保持するため、「1000トークン前の正確な値」を取り出せる。SSMは固定サイズの状態しか持たないので、古い情報は新しい情報に上書きされていく。人間の記憶と同じで、直近の内容は正確に覚えているが、遠い過去の細部は曖昧になる。
たとえば「この文書の3段落目に書かれていた数値を正確に答えよ」「長い入力テキストの中から特定のキーワードを含む箇所をすべて抽出せよ」のようなタスクや、RAG(検索拡張生成)で大量の検索結果から正確に引用する用途が該当する。
論文では「将来的にはSSMとGlobal Attentionを組み合わせたハイブリッドモデルが主流になる」との見解を示している。これは既に業界の潮流になっている(後述)。
カーネル実装の多層構成
速度・使いやすさ・精度制御のバランスを取るため、処理フェーズごとに異なるGPUカーネル実装を使い分けている。
GPUカーネルとは、GPU上で実行される低レベルの計算プログラムのこと。同じ数学的な演算でも、書き方やメモリアクセスパターンの違いで実行速度が大幅に変わる。
| カーネル | 用途 | なぜこの実装か |
|---|---|---|
| Triton | プリフィルカーネル | Pythonライクな記述でGPUカーネルが書ける。開発速度と可読性を優先 |
| TileLang | MIMO用 | MIMOはチャンネル間の相互作用があるため、メモリ階層(レジスタ→共有メモリ→グローバルメモリ)の精密な制御が必要。TileLangはこのタイル単位のメモリ管理を宣言的に記述できる |
| CuTe DSL | デコードカーネル | NVIDIAのHopper世代GPU(H100等)固有の命令セット(TMAなど)を直接利用し、デコード時のレイテンシを最小化 |
H100等のHopper世代GPUに最適化されたデコードカーネルを持つ点も、実測の推論速度に貢献している。逆に言えば、古いGPU(A100など)ではこの速度は出ない可能性がある。
SSMを実際に使っている企業・製品
Mamba-3は1.5Bスケールの研究成果だが、SSMアーキテクチャ自体は既に複数の企業が商用レベルで採用している。「SSMは研究段階」というイメージはもう古い。
SSM-Transformerハイブリッドモデル
SSMの速度とTransformerの検索精度を両取りするハイブリッド構成が主流になりつつある。
| 企業 | 製品 | 規模 | 特徴 |
|---|---|---|---|
| AI21 Labs | Jamba 1.5 | 398B(94Bアクティブ)MoE | 初の商用SSMハイブリッド。256Kコンテキスト対応。NVIDIA NIMとして提供されており、API経由で利用可能 |
| NVIDIA | Nemotron-H | 8B / 47B / 56B | Attention層の92%をMamba2ブロックに置換。Transformer比3倍のスループットを達成 |
| NVIDIA | Nemotron 3 Super | 120B(12Bアクティブ)MoE | エージェント推論向けに設計 |
| IBM | Bamba → Granite 4.0 | 8B | Llama-3.1 8Bと同等の精度を1/7のデータで達成。次世代Granite 4.0に技術統合予定 |
| Zyphra | Zamba2 | 1.2B / 2.7B / 7.4B | オンデバイス向け。推論速度2倍、メモリ27%削減 |
純粋SSMモデル
| 企業 | 製品 | 規模 | 特徴 |
|---|---|---|---|
| TII(UAE) | Falcon Mamba 7B | 7B | オープンソースSSM最高性能。Llama-3.1 8B・Mistral 7Bを上回る精度 |
| Cartesia AI | Sonic 3(TTS) / Rene(LLM) | 1.3B | リアルタイム音声AI。42言語対応。Albert Gu(SSM創始者)がChief Scientist |
注目すべきは、NVIDIAが自社の推論スタック(Nemotron-H)でSSMハイブリッドを採用していること。GPU販売元がTransformerの代替を推進しているのは、SSMが「GPUの使い方をより効率化する」アーキテクチャだからだ。同じハードウェアでより多くのリクエストを捌ければ、GPU需要は減るどころか新しいユースケースが開拓される。
誰にとって何が嬉しいか
LLM APIプロバイダー(Together AI、AWS Bedrock等)
同じGPUハードウェアで処理できるリクエスト数が増える。特に長文の入出力が多いワークロード(文書要約、コード生成、長文翻訳など)で、1GPUあたりのスループットが大幅に改善する。これはサービスの利用料金の低下に直結する。
具体的な数字で言えば、16384トークンの処理でTransformerの約7倍速いということは、同じGPUで7倍近いリクエストを処理できる可能性がある。クラウドGPUの利用料金がLLMサービスの主要コストである以上、このインパクトは大きい。
エッジ・オンデバイス推論
SSMの固定サイズ状態は、メモリが限られるデバイス(スマートフォン、IoT機器)と相性がいい。TransformerのKVキャッシュはシーケンス長に比例してメモリを消費するが、SSMは入力がどれだけ長くても状態サイズが一定。
ZyphraのZamba2がまさにこの路線で、1.2B〜7.4Bのモデルをオンデバイス推論向けに最適化し、メモリ27%削減を達成している。スマートフォン上で動くLLMの品質を「TransformerではメモリがきついからSSMで」という選択肢が現実的になっている。
リアルタイム音声・動画処理
Mamba系列のアーキテクチャはもともと連続信号(音声・センサーデータなど)の処理に適性がある。S4が最初に成果を出したのも音声認識と時系列予測だった。Mamba-3の低レイテンシ推論は、リアルタイム音声認識・同時通訳・動画のリアルタイム字幕生成などで、Transformerより低遅延で処理できる可能性がある。
Cartesia AIのSonic 3は既にSSMベースのリアルタイム音声合成(TTS)を42言語で提供しており、この分野でのSSMの実用性は証明済みだ。
長文コンテキストが必要なアプリケーション
トークン数が増えてもレイテンシが線形にしか増えないため、リポジトリ全体を入力するコードベース解析、書籍丸ごとの要約・翻訳、長時間の会話履歴を保持するチャットボットなど、Transformerでは非現実的だった長さの入力を実用的な時間で処理できる。
AI21 LabsのJamba 1.5が256Kコンテキストに対応しているのは、SSMハイブリッドだからこそ実現できている。Transformerだけで256Kトークンを処理しようとすると、KVキャッシュだけで数十GBのメモリを消費する。
現時点での制約
ただし、すぐにTransformerを置き換えるわけではない。
- 前述の通り、正確な情報検索が必要なタスクではTransformerに劣る。RAGパイプラインの回答生成など、正確な引用が求められる用途には不向き
- Transformer向けの最適化ツール(vLLM、TensorRT-LLM等)やファインチューニング手法(LoRA等)の蓄積に比べ、SSM向けのエコシステムはまだ小さい。ただしNVIDIAがNemotron-HでSSMを採用したことで、ツール面の整備は加速する見込み
- Mamba-3の論文は180M〜1.5Bの範囲で実験しており、70B〜数百Bスケールでの結果は報告されていない。AI21のJamba 1.5(398B)やNVIDIAのNemotron-H(56B)がSSMハイブリッドを大規模で動かしている実績はあるが、純粋SSMでの大規模検証はまだこれから
- 論文自体が認めているように、SSM単体よりもSSM+Attentionのハイブリッド構成が実用上は最も有望