技術 約5分で読めます

LFM2.5 — Transformerでもない、Mambaでもないハイブリッドアーキテクチャ

LLMのアーキテクチャといえばTransformerが圧倒的で、対抗馬としてMambaのようなSSM系が出てきた——という流れはもう聞き飽きた感がある。そこに「どっちでもないやつ」が出てきたので調べてみた。Liquid AIのLFM2.5だ。

Liquid AIとは

MITのCSAIL(コンピュータ科学・人工知能研究所)からスピンアウトしたAIスタートアップ。2022年設立。「液体ニューラルネットワーク」の研究をベースに、エッジデバイス向けの基盤モデルを開発している。

社名の「Liquid」は、線虫の神経回路にヒントを得た「Liquid Neural Networks」に由来する。入力に応じて動的に振る舞いが変わるのが特徴で、これがLFMのアーキテクチャにも色濃く反映されている。

LFM2.5のアーキテクチャ

LFM2.5の核心はAttention + 短距離畳み込みのハイブリッド構成にある。

1.2Bモデルの場合、全16レイヤーのうち:

  • 10層: Double-gated LIV convolution(短距離の依存関係を処理)
  • 6層: Grouped Query Attention / GQA(長距離の依存関係を処理)

Attentionブロックは全体の約37%しかない。残りの63%は計算コストの低い畳み込みブロックで構成されている。

この比率がポイントで、CPUでのprefill/decodeが同サイズのTransformerモデルと比べて約2倍高速になる。KVキャッシュの使用量も少ないため、メモリ効率もいい。

LIV畳み込みとは

LIVは「Linear Input-Varying」の略。名前の通り、入力に応じて振る舞いが変わる線形時間の畳み込みオペレーターである。

具体的な処理フロー:

入力 x → 線形変換 → [成分1, 成分2, 成分3]
成分1 → Depthwise Conv1D(kernel size = 3)
出力 = Linear(成分1_conv × gate(成分2) × 成分3)

カーネルサイズが3と非常に小さいため、計算量は線形時間で済む。それでいて二重ゲート構造(double-gated)により、静的な畳み込みフィルターよりも遥かに高い表現力を持つ。

通常の畳み込みとの違いは「入力依存のゲーティング」がある点。これにより、同じ重みでも入力コンテキストに応じて異なる特徴を抽出できる。Liquid AIの原点である「入力に応じて動的に変化する」という思想がここに表れている。

なぜSSMではなく短距離畳み込みなのか

ここが一番面白いところだった。

Liquid AIはアーキテクチャ探索(Hardware-in-the-Loop Architecture Search)を行い、品質・遅延・メモリの3軸で最適なレイヤー構成を探索した。探索空間にはGQA、短距離畳み込み、線形Attention、S4、Mamba、Mamba2などが含まれている。

結果:

少数のGQAブロックが利用可能な状態では、安価なgated short convolutionだけで、線形Attention/SSM/長距離畳み込みを追加した場合と同等以上の品質-遅延-メモリのトレードオフが得られる。

つまり、Attentionで長距離をカバーしてしまえば、ローカルな処理にSSMは要らないということになる。短距離畳み込みの方がシンプルで、CPUキャッシュとの相性も良く、実デバイス上では速い。

SSM系レイヤーは理論的には長距離依存を線形時間で処理できるが、実際のエッジデバイスでは短距離畳み込み+少数Attentionの方が実用的なパフォーマンスが高い、というのがLiquid AIの主張だ。

LFM2.5モデルファミリー

LFM2.5として公開されているのは1.2Bクラスを中心としたラインナップ。

モデルパラメータ数用途
LFM2.5-1.2B-Base1.17Bベースモデル(ファインチューニング用)
LFM2.5-1.2B-Instruct1.17B汎用指示追従
LFM2.5-1.2B-Thinking1.17B推論特化(思考プロセス出力あり)
LFM2.5-1.2B-JP1.17B日本語特化
LFM2.5-VL-1.6B1.6BVision-Language
LFM2.5-Audio-1.5B1.5B音声対話・ASR・TTS

前世代のLFM2では350M〜8.3Bまで幅広く展開していたが、LFM2.5では「オンデバイスAIで最も需要のある1.2Bクラス」に集中した形。

LFM2からの変更点:

  • 事前学習トークン数: 10T → 28T(2.8倍)
  • ポストトレーニング: 大規模多段階強化学習を追加
  • 日本語特化モデル・Thinkingモデルを新設
  • アーキテクチャ自体は変更なし

コンテキスト長は32,768トークン。配布形式はSafetensors、GGUF、ONNX、MLXと一通り揃っている。

ベンチマーク

テキスト(LFM2.5-1.2B-Instruct)

ベンチマークLFM2.5-1.2BQwen3-1.7BLlama 3.2 1BGemma 3 1B
GPQA38.8934.8516.5724.24
MMLU-Pro44.3542.9120.8014.04
IFEval86.2373.6852.3763.25
AIME2514.009.330.331.00

1.17Bパラメータで、47%大きいQwen3-1.7Bをほぼ全指標で上回っている。

日本語(LFM2.5-1.2B-JP)

ベンチマークLFM2.5-JPLFM2.5-InstructQwen3-1.7BLlama 3.2 1B
JMMLU50.747.747.734.0
M-IFEval (ja)58.141.840.324.1
GSM8K (ja)56.046.846.025.2

日本語特化版は全指標でQwen3-1.7Bを超えている。1.2Bクラスのローカル日本語モデルとしてはかなり優秀。

エッジデバイスでの推論速度

デバイスフレームワークPrefillDecodeメモリ
AMD Ryzen AI 9 HX 370 (CPU)llama.cpp-239 tok/s<1GB
Snapdragon X Elite (NPU)NexaML2,591 tok/s63 tok/s0.9GB
Galaxy S25 Ultra (CPU, Q4)llama.cpp335 tok/s70 tok/s719MB

Galaxy S25 Ultraでの比較: Qwen3-1.7Bはprefill 181 tok/s、decode 40 tok/s、メモリ1,306MB。LFM2.5はほぼ2倍の速度で半分のメモリで動く。

スマホで700MB以下のメモリで実用的な速度が出るというのは、オンデバイスAIの実装を考えると大きい。

コミュニティの活用例: Z-Image-Engineer V4

LFM2.5-1.2B-Baseをファインチューニングしたコミュニティモデルとして、BennyDaBall/LFM2.5-1.2B-Z-Image-Engineer-V4がある。

これは画像生成用プロンプトの自動拡張に特化したモデル。「neon samurai」のような短いフレーズを入力すると、ライティング、レンズ設定、構図、雰囲気を含む200-250語の詳細な画像生成プロンプトに変換してくれる。

主にZ-Image TurboやFlux2 Klein向けのワークフローで使われ、ComfyUIのカスタムノードも用意されている。LM StudioやOllamaでも動く。

元々はQwen3-4Bベースで開発されていたシリーズ(V1〜V4)だが、LFM2.5-1.2Bベース版はQwen3版の約3倍高速で、Q4量子化で約700MBと非常に軽い。55,000件のデータセットで完全ファインチューニングされており、SMART Trainingと呼ばれる独自の正則化手法が使われている。

1.2Bのモデルでも特化タスクなら十分実用的、というLFM2.5の強みがよく出ている事例だと思う。

ライセンスに注意

LFM2まではApache 2.0ベースだったが、LFM2.5ではLFM Open License v1.0という独自ライセンスに変更された。利用前に確認しておくこと。