LFM2.5 — Transformerでもない、Mambaでもないハイブリッドアーキテクチャ
LLMのアーキテクチャといえばTransformerが圧倒的で、対抗馬としてMambaのようなSSM系が出てきた——という流れはもう聞き飽きた感がある。そこに「どっちでもないやつ」が出てきたので調べてみた。Liquid AIのLFM2.5だ。
Liquid AIとは
MITのCSAIL(コンピュータ科学・人工知能研究所)からスピンアウトしたAIスタートアップ。2022年設立。「液体ニューラルネットワーク」の研究をベースに、エッジデバイス向けの基盤モデルを開発している。
社名の「Liquid」は、線虫の神経回路にヒントを得た「Liquid Neural Networks」に由来する。入力に応じて動的に振る舞いが変わるのが特徴で、これがLFMのアーキテクチャにも色濃く反映されている。
LFM2.5のアーキテクチャ
LFM2.5の核心はAttention + 短距離畳み込みのハイブリッド構成にある。
1.2Bモデルの場合、全16レイヤーのうち:
- 10層: Double-gated LIV convolution(短距離の依存関係を処理)
- 6層: Grouped Query Attention / GQA(長距離の依存関係を処理)
Attentionブロックは全体の約37%しかない。残りの63%は計算コストの低い畳み込みブロックで構成されている。
この比率がポイントで、CPUでのprefill/decodeが同サイズのTransformerモデルと比べて約2倍高速になる。KVキャッシュの使用量も少ないため、メモリ効率もいい。
LIV畳み込みとは
LIVは「Linear Input-Varying」の略。名前の通り、入力に応じて振る舞いが変わる線形時間の畳み込みオペレーターである。
具体的な処理フロー:
入力 x → 線形変換 → [成分1, 成分2, 成分3]
成分1 → Depthwise Conv1D(kernel size = 3)
出力 = Linear(成分1_conv × gate(成分2) × 成分3)
カーネルサイズが3と非常に小さいため、計算量は線形時間で済む。それでいて二重ゲート構造(double-gated)により、静的な畳み込みフィルターよりも遥かに高い表現力を持つ。
通常の畳み込みとの違いは「入力依存のゲーティング」がある点。これにより、同じ重みでも入力コンテキストに応じて異なる特徴を抽出できる。Liquid AIの原点である「入力に応じて動的に変化する」という思想がここに表れている。
なぜSSMではなく短距離畳み込みなのか
ここが一番面白いところだった。
Liquid AIはアーキテクチャ探索(Hardware-in-the-Loop Architecture Search)を行い、品質・遅延・メモリの3軸で最適なレイヤー構成を探索した。探索空間にはGQA、短距離畳み込み、線形Attention、S4、Mamba、Mamba2などが含まれている。
結果:
少数のGQAブロックが利用可能な状態では、安価なgated short convolutionだけで、線形Attention/SSM/長距離畳み込みを追加した場合と同等以上の品質-遅延-メモリのトレードオフが得られる。
つまり、Attentionで長距離をカバーしてしまえば、ローカルな処理にSSMは要らないということになる。短距離畳み込みの方がシンプルで、CPUキャッシュとの相性も良く、実デバイス上では速い。
SSM系レイヤーは理論的には長距離依存を線形時間で処理できるが、実際のエッジデバイスでは短距離畳み込み+少数Attentionの方が実用的なパフォーマンスが高い、というのがLiquid AIの主張だ。
LFM2.5モデルファミリー
LFM2.5として公開されているのは1.2Bクラスを中心としたラインナップ。
| モデル | パラメータ数 | 用途 |
|---|---|---|
| LFM2.5-1.2B-Base | 1.17B | ベースモデル(ファインチューニング用) |
| LFM2.5-1.2B-Instruct | 1.17B | 汎用指示追従 |
| LFM2.5-1.2B-Thinking | 1.17B | 推論特化(思考プロセス出力あり) |
| LFM2.5-1.2B-JP | 1.17B | 日本語特化 |
| LFM2.5-VL-1.6B | 1.6B | Vision-Language |
| LFM2.5-Audio-1.5B | 1.5B | 音声対話・ASR・TTS |
前世代のLFM2では350M〜8.3Bまで幅広く展開していたが、LFM2.5では「オンデバイスAIで最も需要のある1.2Bクラス」に集中した形。
LFM2からの変更点:
- 事前学習トークン数: 10T → 28T(2.8倍)
- ポストトレーニング: 大規模多段階強化学習を追加
- 日本語特化モデル・Thinkingモデルを新設
- アーキテクチャ自体は変更なし
コンテキスト長は32,768トークン。配布形式はSafetensors、GGUF、ONNX、MLXと一通り揃っている。
ベンチマーク
テキスト(LFM2.5-1.2B-Instruct)
| ベンチマーク | LFM2.5-1.2B | Qwen3-1.7B | Llama 3.2 1B | Gemma 3 1B |
|---|---|---|---|---|
| GPQA | 38.89 | 34.85 | 16.57 | 24.24 |
| MMLU-Pro | 44.35 | 42.91 | 20.80 | 14.04 |
| IFEval | 86.23 | 73.68 | 52.37 | 63.25 |
| AIME25 | 14.00 | 9.33 | 0.33 | 1.00 |
1.17Bパラメータで、47%大きいQwen3-1.7Bをほぼ全指標で上回っている。
日本語(LFM2.5-1.2B-JP)
| ベンチマーク | LFM2.5-JP | LFM2.5-Instruct | Qwen3-1.7B | Llama 3.2 1B |
|---|---|---|---|---|
| JMMLU | 50.7 | 47.7 | 47.7 | 34.0 |
| M-IFEval (ja) | 58.1 | 41.8 | 40.3 | 24.1 |
| GSM8K (ja) | 56.0 | 46.8 | 46.0 | 25.2 |
日本語特化版は全指標でQwen3-1.7Bを超えている。1.2Bクラスのローカル日本語モデルとしてはかなり優秀。
エッジデバイスでの推論速度
| デバイス | フレームワーク | Prefill | Decode | メモリ |
|---|---|---|---|---|
| AMD Ryzen AI 9 HX 370 (CPU) | llama.cpp | - | 239 tok/s | <1GB |
| Snapdragon X Elite (NPU) | NexaML | 2,591 tok/s | 63 tok/s | 0.9GB |
| Galaxy S25 Ultra (CPU, Q4) | llama.cpp | 335 tok/s | 70 tok/s | 719MB |
Galaxy S25 Ultraでの比較: Qwen3-1.7Bはprefill 181 tok/s、decode 40 tok/s、メモリ1,306MB。LFM2.5はほぼ2倍の速度で半分のメモリで動く。
スマホで700MB以下のメモリで実用的な速度が出るというのは、オンデバイスAIの実装を考えると大きい。
コミュニティの活用例: Z-Image-Engineer V4
LFM2.5-1.2B-Baseをファインチューニングしたコミュニティモデルとして、BennyDaBall/LFM2.5-1.2B-Z-Image-Engineer-V4がある。
これは画像生成用プロンプトの自動拡張に特化したモデル。「neon samurai」のような短いフレーズを入力すると、ライティング、レンズ設定、構図、雰囲気を含む200-250語の詳細な画像生成プロンプトに変換してくれる。
主にZ-Image TurboやFlux2 Klein向けのワークフローで使われ、ComfyUIのカスタムノードも用意されている。LM StudioやOllamaでも動く。
元々はQwen3-4Bベースで開発されていたシリーズ(V1〜V4)だが、LFM2.5-1.2Bベース版はQwen3版の約3倍高速で、Q4量子化で約700MBと非常に軽い。55,000件のデータセットで完全ファインチューニングされており、SMART Trainingと呼ばれる独自の正則化手法が使われている。
1.2Bのモデルでも特化タスクなら十分実用的、というLFM2.5の強みがよく出ている事例だと思う。
ライセンスに注意
LFM2まではApache 2.0ベースだったが、LFM2.5ではLFM Open License v1.0という独自ライセンスに変更された。利用前に確認しておくこと。