#Inference

2 件の記事

技術 2026年3月23日(月) 約7分

397Bパラメータモデルを48GB MacBookで動かすFlash-MoE

Flash-MoEはQwen3.5-397B-A17BをMacBook Pro M3 Maxで4.36トークン/秒で実行するC/Metal推論エンジン。SSDからのエキスパートストリーミングと手書きMetalシェーダーで209GBのモデルを48GBのメモリ環境に収めた。

技術 2026年3月22日(日) 約14分

推論遅延の削減を第一目標に再設計されたMamba-3。指数台形離散化・複素数値状態・MIMO構造の3改善で、16384トークンでTransformerの約6.9倍の速度を達成した。