Together AIがMamba-3を発表、長文推論でTransformer比約7倍の速度と複素数値SSM

Together AIが公開した Mamba-3 は、前作Mamba-2とは異なる設計思想で作られた新世代SSM（State Space Model、状態空間モデル）だ。Mamba-2が訓練速度の最適化を主眼としていたのに対し、Mamba-3は推論時の遅延削減を第一目標として再設計されている。ICLR 2026のカンファレンスペーパーとして採択済み。

論文はarXiv:2603.15569、コードはgithub.com/state-spaces/mambaで公開。

SSMとは何か、Transformerの推論コスト問題

現在のLLM（ChatGPT、Claude、Geminiなど）はほぼすべてTransformerアーキテクチャで動いている。Transformerの中核にあるのがAttention機構で、これは「入力テキストのすべてのトークン同士の関係性を計算する」仕組みだ。

この仕組みは精度が高い反面、致命的な弱点がある。テキストが長くなると計算量が二次関数的に爆発する。

トークン数    Attentionの計算量（概算）
  1,000       1,000,000（100万）
  4,000      16,000,000（1600万）
 16,000     256,000,000（2.56億）
128,000  16,384,000,000（163億）

トークン数が4倍になると計算量が16倍になる。これが長文の推論が遅い根本原因で、APIの利用料金が高い理由でもある。

SSM（状態空間モデル） はこの問題を根本から解決しようとするアプローチだ。Attentionのように「すべてのトークン同士を見比べる」のではなく、固定サイズの「状態」を更新しながら読み進める。

わかりやすく言うと、TransformerとSSMの違いは「データベース」と「メモリ」の違いに近い。

Transformer = データベース型: 過去に読んだすべてのトークンをKVキャッシュとして保存しておき、必要な時にクエリして取り出す。正確だがストレージ（メモリ）を食う
SSM = メモリ型: 固定サイズの記憶を更新しながら読み進める。人間が本を読む時のイメージに近い——全ページを同時に見比べるのではなく、今まで読んだ内容の要約（状態）を持ちながら1ページずつ読み進める。記憶容量が一定なので省メモリだが、細部は忘れる

graph LR
    subgraph Transformer
        T1[トークン1] <--> T2[トークン2]
        T1 <--> T3[トークン3]
        T1 <--> T4[トークン4]
        T2 <--> T3
        T2 <--> T4
        T3 <--> T4
    end

    subgraph SSM
        S1[トークン1] --> State1[状態更新]
        State1 --> S2[トークン2]
        S2 --> State2[状態更新]
        State2 --> S3[トークン3]
        S3 --> State3[状態更新]
        State3 --> S4[トークン4]
    end

SSMの計算量はトークン数に対して線形（トークン数が4倍になると計算量も4倍）なので、長文になるほどTransformerとの速度差が開く。これが16384トークンで約7倍の速度差が出る理由だ。

SSMの歴史（S4 → Mamba → Mamba-2 → Mamba-3）

SSMの研究は段階的に進化してきた。中心人物はCMUのAlbert Gu（SSM研究の創始者、HiPPO・S4・Mambaの生みの親、現Cartesia AI Chief Scientist）とプリンストン大学のTri Dao（FlashAttentionの開発者でもある、現Together AI Chief Scientist）。二人はスタンフォード博士課程で共同研究した仲で、Mambaシリーズを共同指導している。

モデル	時期	主な貢献
S4	2021年	SSMで長距離依存を効率的に扱えることを示した最初のブレークスルー。音声・時系列で成果
Mamba	2023年末	「選択メカニズム」を導入し、入力に応じてSSMのパラメータを動的に変化させた。LLMスケールでTransformerに匹敵する品質を初めて達成
Mamba-2	2024年	SSMとAttentionの数学的な等価性を発見し、既存のGPUカーネル（Flashなど）を流用できる形に再構成。訓練速度が大幅に改善
Mamba-3	2026年	推論遅延の削減にフォーカス。複素数値状態と新しい離散化手法で、同じ精度を半分の状態サイズで達成

Mamba-2までは「Transformerと同じ品質を出せるか？」が焦点だった。Mamba-3ではそれを前提とした上で「実際のGPU上でどれだけ速く推論できるか」に軸足を移している。

アーキテクチャ改善

1. 指数台形離散化（Exponential Trapezoid Discretization）

SSMは元々連続時間のシステム（微分方程式）として定義されている。しかしコンピュータで計算するには離散時間（1ステップずつ）に変換する必要がある。この変換処理を「離散化」と呼ぶ。

離散化の方法によって、元の連続システムの情報がどれだけ正確に保存されるかが変わる。身近な例えで言えば、動画のフレームレートに近い。30fpsと60fpsでは同じ動きでも滑らかさが違う。離散化の精度が高いほど、元の連続的な情報を忠実に再現できる。

離散化手法	精度	特徴
ZOH（Zero-Order Hold）	1次	Mamba初代で使用。最もシンプルだが表現力が低い。入力が各ステップ間で一定と仮定する
指数オイラー	1次	Mamba-2で使用。ZOHと精度は同程度だが計算効率が良い
指数台形離散化	2次	Mamba-3で導入。入力と状態の両方の変化を考慮するため、より複雑な系列パターンを扱える

1次から2次に精度が上がったことで何が変わるか。Mamba-2では離散化の精度不足を補うために短畳み込み（short convolution）レイヤーという補助機構が必要だった。これは直近数トークンの局所的なパターン（n-gramのような短い依存関係）を捕捉する役割を担っていた。指数台形離散化はSSM本体だけでこの情報を捉えられるため、短畳み込みレイヤーを丸ごと除去できた。論文によれば除去しても精度は落ちず、むしろわずかに改善している。レイヤーが減った分、推論パイプラインがシンプルになり速度が上がる。

2. 複素数値状態（Complex-valued States）

Mamba-2までの状態ベクトルは実数値だった。Mamba-3ではこれを複素数値に拡張している。

複素数が出てくると身構えるが、ここでのポイントは「振動パターンを効率的に表現できる」という一点に尽きる。

実数値の状態で「周期的に変化する情報」を追跡しようとすると、複数の状態変数を組み合わせる必要がある。複素数なら1つの変数で振幅と位相の両方を持てるので、同じ情報量をより少ない状態変数で表現できる。これがMamba-3が「半分の状態サイズで同等のperplexity」を達成できた主因だ。

状態の型	状態サイズ	表現できるパターン
実数値（Mamba-2）	N	指数的な減衰・成長
複素数値（Mamba-3）	N/2	指数的な減衰・成長 + 振動・位相回転

具体例を挙げると、自然言語には「対応する括弧」「if-then構造」「主語-述語の呼応」など、離れた位置にある要素が対応するパターンが多い。こうした離れた依存関係を追跡するには、途中の無関係なトークンを読んでいる間も「何かを待っている」という状態を保持する必要がある。複素数の位相回転はこの「保持」を自然に表現できる。

この効果は状態追跡ベンチマークで劇的に現れた。

タスク	Mamba-3	Mamba-2
パリティ判定（奇偶の追跡）	100%	0.9%
算術（括弧なし）	98.51%	47.81%
算術（括弧あり）	87.75%	0.88%

パリティ判定は「0と1の列を読みながら、今まで1が偶数個か奇数個かを追跡する」タスク。シンプルに見えるが、状態を長いシーケンスにわたって正確に維持する必要があり、SSMにとっては難題だった。Mamba-2の0.9%（ほぼランダム）からMamba-3の100%への跳躍は、複素数値状態がいかに状態追跡能力を向上させたかを示している。

実装面では、複素数状態行列をブロック対角2x2回転行列として表現し、実数ベクトルに適用する「RoPEトリック」を使っている。位置エンコーディングにはTransformerで広く使われているRoPE（Rotary Position Embedding）を採用しており、複素数値の表現と数学的に整合する。RoPEを外すとパリティタスクの精度が2.27%まで崩壊するため、この仕組みが不可欠であることが確認されている。

3. MIMO SSM（Multi-Input Multi-Output）

Mamba-2はSISO（Single-Input Single-Output）構造だった。これは各チャンネル（特徴次元）が独立した別々のSSMとして動作する設計で、チャンネルAの状態がチャンネルBに影響を与えることはない。

graph TD
    subgraph SISO構造
        direction LR
        C1[チャンネル1] --> SSM1[SSM] --> O1[出力1]
        C2[チャンネル2] --> SSM2[SSM] --> O2[出力2]
        C3[チャンネル3] --> SSM3[SSM] --> O3[出力3]
    end

    subgraph MIMO構造
        direction LR
        M1[チャンネル1] --> MSSM[SSM<br/>r=4] --> MO1[出力1]
        M2[チャンネル2] --> MSSM --> MO2[出力2]
        M3[チャンネル3] --> MSSM --> MO3[出力3]
    end

MIMO（Multi-Input Multi-Output）ではチャンネル間に相互作用がある。入力チャンネルの組み合わせが出力に影響し合う。r=4は「ランク4」で、完全結合ではなく低ランク近似による結合——全チャンネルを完全に結合すると計算コストが爆発するので、4次元の部分空間を通じて情報を交換する。

TransformerのAttentionはもともとヘッド内で全次元が相互作用するので、この機能を持っている。SISOのSSMにはそれがなかったため、MIMOで補完した形だ。

MIMOの技術的に面白いポイントは、FLOPs（浮動小数点演算数）自体はMamba-2比で最大4倍に増えるのに、実測の遅延はほぼ同等であること。これはGPUのボトルネックが「計算」から「メモリアクセス」に移行する現象（メモリバウンド → コンピュートバウンド）を利用している。MIMOによって演算強度（arithmetic intensity、1バイトのメモリアクセスあたりの計算回数）が約2.5 ops/byteからΘ(R) ops/byteに向上し、GPUの計算ユニットをより有効に使えるようになった。

実測では、MIMOはSISOより精度が+1.2pt向上する代わりに、デコード遅延がわずかに増える（約8%）。

その他の変更点として、訓練安定化のための QKNorm 正規化層の追加、MLP層をTransformer・Gated DeltaNetと共通の標準設計に統一、がある。

Mamba-2とMamba-3の比較

項目	Mamba-2	Mamba-3
設計思想	訓練速度の最大化	推論遅延の最小化
離散化	指数オイラー（1次精度）	指数台形（2次精度）
状態の型	実数値	複素数値（RoPEで実装）
入出力構造	SISOのみ	SISO + MIMO選択可
短畳み込み	あり（必須）	不要（除去）
正規化	RMSNorm	QKNorm
状態サイズ128でのperplexity	ベースライン	状態サイズ64で同等（半分）
パリティタスク	0.9%	100%
単一トークンデコード遅延	0.203ms	0.156ms

推論速度のベンチマーク（H100 GPU、1.5Bモデル）

プリフィル＋デコード遅延（秒）の比較。「プリフィル」は入力テキストの処理、「デコード」は出力トークンの逐次生成。バッチサイズ128で測定。

モデル	512	1024	2048	4096	16384
Transformer (vLLM, Llama-3.2-1B)	4.45	9.60	20.37	58.64	976.50
Mamba-2	4.66	9.32	18.62	37.22	149.02
Mamba-3 SISO	4.39	8.78	17.57	35.11	140.61
Mamba-3 MIMO (r=4)	4.74	9.48	18.96	37.85	151.81

短い入力（512トークン）では差がほとんどない。差が出るのは長文で、16384トークンだとTransformerが約16分かかるところ、Mamba-3 SISOは約2.3分で約6.9倍の速度差になる。Transformerの遅延は4096→16384で16.7倍に増加（二次関数的）するのに対し、Mamba-3 SISOは4.0倍（線形的）にとどまる。

SISO変種は全シーケンス長で最速を達成。MIMO変種はデコード遅延がわずかに増えるが、その代わりに精度が上がるため、用途に応じて選択できる。

精度のベンチマーク（1.5Bスケール）

下流タスクの平均精度。

モデル	ARC-E	ARC-C	HellaSwag	PIQA	WinoGrande	OBQA	平均
Transformer	74.0	40.4	60.6	73.8	58.7	29.6	55.4
Gated DeltaNet	75.3	41.2	61.3	74.3	58.0	31.6	55.8
Mamba-2	75.3	41.8	61.4	73.6	57.5	32.6	55.7
Mamba-3 SISO	75.9	42.7	61.9	73.6	59.4	32.0	56.4
Mamba-3 MIMO	76.5	44.5	62.3	75.3	60.6	32.6	57.6

各ベンチマークの内容は以下の通り。

ベンチマーク	内容
ARC-E / ARC-C	小学校レベルの科学問題（EasyとChallenge）。常識推論を測る
HellaSwag	文の続きを4択から選ぶ。日常的な状況の理解力
PIQA	物理的な直感（「コップを温めるには？」等）
WinoGrande	代名詞の指示先を解決する。文脈理解力
OBQA	小学校レベルの理科知識

Mamba-3 MIMOはTransformer比+2.2pt、Mamba-2比+1.9ptの改善。1.5Bスケールで「SSMはTransformerより精度が劣る」という従来の常識を覆している。

SSMが苦手なタスク（正確な情報検索）

検索ベンチマークでは依然としてTransformerに劣る。SSMは固定サイズの状態に情報を圧縮するという本質的な制約がある。

Transformerは過去のすべてのトークンをKVキャッシュとして保持するため、「1000トークン前の正確な値」を取り出せる。SSMは固定サイズの状態しか持たないので、古い情報は新しい情報に上書きされていく。人間の記憶と同じで、直近の内容は正確に覚えているが、遠い過去の細部は曖昧になる。

たとえば「この文書の3段落目に書かれていた数値を正確に答えよ」「長い入力テキストの中から特定のキーワードを含む箇所をすべて抽出せよ」のようなタスクや、RAG（検索拡張生成）で大量の検索結果から正確に引用する用途が該当する。

論文では「将来的にはSSMとGlobal Attentionを組み合わせたハイブリッドモデルが主流になる」との見解を示している。これは既に業界の潮流になっている（後述）。

カーネル実装の多層構成

速度・使いやすさ・精度制御のバランスを取るため、処理フェーズごとに異なるGPUカーネル実装を使い分けている。

GPUカーネルとは、GPU上で実行される低レベルの計算プログラムのこと。同じ数学的な演算でも、書き方やメモリアクセスパターンの違いで実行速度が大幅に変わる。

カーネル	用途	なぜこの実装か
Triton	プリフィルカーネル	Pythonライクな記述でGPUカーネルが書ける。開発速度と可読性を優先
TileLang	MIMO用	MIMOはチャンネル間の相互作用があるため、メモリ階層（レジスタ→共有メモリ→グローバルメモリ）の精密な制御が必要。TileLangはこのタイル単位のメモリ管理を宣言的に記述できる
CuTe DSL	デコードカーネル	NVIDIAのHopper世代GPU（H100等）固有の命令セット（TMAなど）を直接利用し、デコード時のレイテンシを最小化

H100等のHopper世代GPUに最適化されたデコードカーネルを持つ点も、実測の推論速度に貢献している。逆に言えば、古いGPU（A100など）ではこの速度は出ない可能性がある。

SSMを実際に使っている企業・製品

Mamba-3は1.5Bスケールの研究成果だが、SSMアーキテクチャ自体は既に複数の企業が商用レベルで採用している。「SSMは研究段階」というイメージはもう古い。

SSM-Transformerハイブリッドモデル

SSMの速度とTransformerの検索精度を両取りするハイブリッド構成が主流になりつつある。

企業	製品	規模	特徴
AI21 Labs	Jamba 1.5	398B（94Bアクティブ）MoE	初の商用SSMハイブリッド。256Kコンテキスト対応。NVIDIA NIMとして提供されており、API経由で利用可能
NVIDIA	Nemotron-H	8B / 47B / 56B	Attention層の92%をMamba2ブロックに置換。Transformer比3倍のスループットを達成
NVIDIA	Nemotron 3 Super	120B（12Bアクティブ）MoE	エージェント推論向けに設計
IBM	Bamba → Granite 4.0	8B	Llama-3.1 8Bと同等の精度を1/7のデータで達成。次世代Granite 4.0に技術統合予定
Zyphra	Zamba2	1.2B / 2.7B / 7.4B	オンデバイス向け。推論速度2倍、メモリ27%削減

純粋SSMモデル

企業	製品	規模	特徴
TII（UAE）	Falcon Mamba 7B	7B	オープンソースSSM最高性能。Llama-3.1 8B・Mistral 7Bを上回る精度
Cartesia AI	Sonic 3（TTS） / Rene（LLM）	1.3B	リアルタイム音声AI。42言語対応。Albert Gu（SSM創始者）がChief Scientist

注目すべきは、NVIDIAが自社の推論スタック（Nemotron-H）でSSMハイブリッドを採用していること。GPU販売元がTransformerの代替を推進しているのは、SSMが「GPUの使い方をより効率化する」アーキテクチャだからだ。同じハードウェアでより多くのリクエストを捌ければ、GPU需要は減るどころか新しいユースケースが開拓される。

誰にとって何が嬉しいか

LLM APIプロバイダー（Together AI、AWS Bedrock等）

同じGPUハードウェアで処理できるリクエスト数が増える。特に長文の入出力が多いワークロード（文書要約、コード生成、長文翻訳など）で、1GPUあたりのスループットが大幅に改善する。これはサービスの利用料金の低下に直結する。

具体的な数字で言えば、16384トークンの処理でTransformerの約7倍速いということは、同じGPUで7倍近いリクエストを処理できる可能性がある。クラウドGPUの利用料金がLLMサービスの主要コストである以上、このインパクトは大きい。

エッジ・オンデバイス推論

SSMの固定サイズ状態は、メモリが限られるデバイス（スマートフォン、IoT機器）と相性がいい。TransformerのKVキャッシュはシーケンス長に比例してメモリを消費するが、SSMは入力がどれだけ長くても状態サイズが一定。

ZyphraのZamba2がまさにこの路線で、1.2B〜7.4Bのモデルをオンデバイス推論向けに最適化し、メモリ27%削減を達成している。スマートフォン上で動くLLMの品質を「TransformerではメモリがきついからSSMで」という選択肢が現実的になっている。

リアルタイム音声・動画処理

Mamba系列のアーキテクチャはもともと連続信号（音声・センサーデータなど）の処理に適性がある。S4が最初に成果を出したのも音声認識と時系列予測だった。Mamba-3の低レイテンシ推論は、リアルタイム音声認識・同時通訳・動画のリアルタイム字幕生成などで、Transformerより低遅延で処理できる可能性がある。

Cartesia AIのSonic 3は既にSSMベースのリアルタイム音声合成（TTS）を42言語で提供しており、この分野でのSSMの実用性は証明済みだ。

長文コンテキストが必要なアプリケーション

トークン数が増えてもレイテンシが線形にしか増えないため、リポジトリ全体を入力するコードベース解析、書籍丸ごとの要約・翻訳、長時間の会話履歴を保持するチャットボットなど、Transformerでは非現実的だった長さの入力を実用的な時間で処理できる。

AI21 LabsのJamba 1.5が256Kコンテキストに対応しているのは、SSMハイブリッドだからこそ実現できている。Transformerだけで256Kトークンを処理しようとすると、KVキャッシュだけで数十GBのメモリを消費する。

現時点での制約

ただし、すぐにTransformerを置き換えるわけではない。

前述の通り、正確な情報検索が必要なタスクではTransformerに劣る。RAGパイプラインの回答生成など、正確な引用が求められる用途には不向き
Transformer向けの最適化ツール（vLLM、TensorRT-LLM等）やファインチューニング手法（LoRA等）の蓄積に比べ、SSM向けのエコシステムはまだ小さい。ただしNVIDIAがNemotron-HでSSMを採用したことで、ツール面の整備は加速する見込み
Mamba-3の論文は180M〜1.5Bの範囲で実験しており、70B〜数百Bスケールでの結果は報告されていない。AI21のJamba 1.5（398B）やNVIDIAのNemotron-H（56B）がSSMハイブリッドを大規模で動かしている実績はあるが、純粋SSMでの大規模検証はまだこれから
論文自体が認めているように、SSM単体よりもSSM+Attentionのハイブリッド構成が実用上は最も有望