LFM2.5 — Transformerでもない、Mambaでもないハイブリッドアーキテクチャ

LLMのアーキテクチャといえばTransformerが圧倒的で、対抗馬としてMambaのようなSSM系が出てきた——という流れはもう聞き飽きた感がある。そこに「どっちでもないやつ」が出てきたので調べてみた。Liquid AIのLFM2.5だ。

Liquid AIとは

MITのCSAIL（コンピュータ科学・人工知能研究所）からスピンアウトしたAIスタートアップ。2022年設立。「液体ニューラルネットワーク」の研究をベースに、エッジデバイス向けの基盤モデルを開発している。

社名の「Liquid」は、線虫の神経回路にヒントを得た「Liquid Neural Networks」に由来する。入力に応じて動的に振る舞いが変わるのが特徴で、これがLFMのアーキテクチャにも色濃く反映されている。

LFM2.5のアーキテクチャ

LFM2.5の核心はAttention + 短距離畳み込みのハイブリッド構成にある。

1.2Bモデルの場合、全16レイヤーのうち:

10層: Double-gated LIV convolution（短距離の依存関係を処理）
6層: Grouped Query Attention / GQA（長距離の依存関係を処理）

Attentionブロックは全体の約37%しかない。残りの63%は計算コストの低い畳み込みブロックで構成されている。

この比率がポイントで、CPUでのprefill/decodeが同サイズのTransformerモデルと比べて約2倍高速になる。KVキャッシュの使用量も少ないため、メモリ効率もいい。

LIV畳み込みとは

LIVは「Linear Input-Varying」の略。名前の通り、入力に応じて振る舞いが変わる線形時間の畳み込みオペレーターである。

具体的な処理フロー:

入力 x → 線形変換 → [成分1, 成分2, 成分3]
成分1 → Depthwise Conv1D（kernel size = 3）
出力 = Linear(成分1_conv × gate(成分2) × 成分3)

カーネルサイズが3と非常に小さいため、計算量は線形時間で済む。それでいて二重ゲート構造（double-gated）により、静的な畳み込みフィルターよりも遥かに高い表現力を持つ。

通常の畳み込みとの違いは「入力依存のゲーティング」がある点。これにより、同じ重みでも入力コンテキストに応じて異なる特徴を抽出できる。Liquid AIの原点である「入力に応じて動的に変化する」という思想がここに表れている。

なぜSSMではなく短距離畳み込みなのか

ここが一番面白いところだった。

Liquid AIはアーキテクチャ探索（Hardware-in-the-Loop Architecture Search）を行い、品質・遅延・メモリの3軸で最適なレイヤー構成を探索した。探索空間にはGQA、短距離畳み込み、線形Attention、S4、Mamba、Mamba2などが含まれている。

結果:

少数のGQAブロックが利用可能な状態では、安価なgated short convolutionだけで、線形Attention/SSM/長距離畳み込みを追加した場合と同等以上の品質-遅延-メモリのトレードオフが得られる。

つまり、Attentionで長距離をカバーしてしまえば、ローカルな処理にSSMは要らないということになる。短距離畳み込みの方がシンプルで、CPUキャッシュとの相性も良く、実デバイス上では速い。

SSM系レイヤーは理論的には長距離依存を線形時間で処理できるが、実際のエッジデバイスでは短距離畳み込み+少数Attentionの方が実用的なパフォーマンスが高い、というのがLiquid AIの主張だ。

LFM2.5モデルファミリー

LFM2.5として公開されているのは1.2Bクラスを中心としたラインナップ。

モデル	パラメータ数	用途
LFM2.5-1.2B-Base	1.17B	ベースモデル（ファインチューニング用）
LFM2.5-1.2B-Instruct	1.17B	汎用指示追従
LFM2.5-1.2B-Thinking	1.17B	推論特化（思考プロセス出力あり）
LFM2.5-1.2B-JP	1.17B	日本語特化
LFM2.5-VL-1.6B	1.6B	Vision-Language
LFM2.5-Audio-1.5B	1.5B	音声対話・ASR・TTS

前世代のLFM2では350M〜8.3Bまで幅広く展開していたが、LFM2.5では「オンデバイスAIで最も需要のある1.2Bクラス」に集中した形。

LFM2からの変更点:

事前学習トークン数: 10T → 28T（2.8倍）
ポストトレーニング: 大規模多段階強化学習を追加
日本語特化モデル・Thinkingモデルを新設
アーキテクチャ自体は変更なし

コンテキスト長は32,768トークン。配布形式はSafetensors、GGUF、ONNX、MLXと一通り揃っている。

ベンチマーク

テキスト（LFM2.5-1.2B-Instruct）

ベンチマーク	LFM2.5-1.2B	Qwen3-1.7B	Llama 3.2 1B	Gemma 3 1B
GPQA	38.89	34.85	16.57	24.24
MMLU-Pro	44.35	42.91	20.80	14.04
IFEval	86.23	73.68	52.37	63.25
AIME25	14.00	9.33	0.33	1.00

1.17Bパラメータで、47%大きいQwen3-1.7Bをほぼ全指標で上回っている。

日本語（LFM2.5-1.2B-JP）

ベンチマーク	LFM2.5-JP	LFM2.5-Instruct	Qwen3-1.7B	Llama 3.2 1B
JMMLU	50.7	47.7	47.7	34.0
M-IFEval (ja)	58.1	41.8	40.3	24.1
GSM8K (ja)	56.0	46.8	46.0	25.2

日本語特化版は全指標でQwen3-1.7Bを超えている。1.2Bクラスのローカル日本語モデルとしてはかなり優秀。

エッジデバイスでの推論速度

デバイス	フレームワーク	Prefill	Decode	メモリ
AMD Ryzen AI 9 HX 370 (CPU)	llama.cpp	-	239 tok/s	<1GB
Snapdragon X Elite (NPU)	NexaML	2,591 tok/s	63 tok/s	0.9GB
Galaxy S25 Ultra (CPU, Q4)	llama.cpp	335 tok/s	70 tok/s	719MB

Galaxy S25 Ultraでの比較: Qwen3-1.7Bはprefill 181 tok/s、decode 40 tok/s、メモリ1,306MB。LFM2.5はほぼ2倍の速度で半分のメモリで動く。

スマホで700MB以下のメモリで実用的な速度が出るというのは、オンデバイスAIの実装を考えると大きい。

コミュニティの活用例: Z-Image-Engineer V4

LFM2.5-1.2B-Baseをファインチューニングしたコミュニティモデルとして、BennyDaBall/LFM2.5-1.2B-Z-Image-Engineer-V4がある。

これは画像生成用プロンプトの自動拡張に特化したモデル。「neon samurai」のような短いフレーズを入力すると、ライティング、レンズ設定、構図、雰囲気を含む200-250語の詳細な画像生成プロンプトに変換してくれる。

主にZ-Image TurboやFlux2 Klein向けのワークフローで使われ、ComfyUIのカスタムノードも用意されている。LM StudioやOllamaでも動く。

元々はQwen3-4Bベースで開発されていたシリーズ（V1〜V4）だが、LFM2.5-1.2Bベース版はQwen3版の約3倍高速で、Q4量子化で約700MBと非常に軽い。55,000件のデータセットで完全ファインチューニングされており、SMART Trainingと呼ばれる独自の正則化手法が使われている。

1.2Bのモデルでも特化タスクなら十分実用的、というLFM2.5の強みがよく出ている事例だと思う。

ライセンスに注意

LFM2まではApache 2.0ベースだったが、LFM2.5ではLFM Open License v1.0という独自ライセンスに変更された。利用前に確認しておくこと。