技術 2026年3月23日(月) 約7分 397Bパラメータモデルを48GB MacBookで動かすFlash-MoE Flash-MoEはQwen3.5-397B-A17BをMacBook Pro M3 Maxで4.36トークン/秒で実行するC/Metal推論エンジン。SSDからのエキスパートストリーミングと手書きMetalシェーダーで209GBのモデルを48GBのメモリ環境に収めた。 Inference MPS LLM Qwen MoE Local LLM
技術 2026年3月22日(日) 約14分 Together AIがMamba-3を発表、長文推論でTransformer比約7倍の速度と複素数値SSM 推論遅延の削減を第一目標に再設計されたMamba-3。指数台形離散化・複素数値状態・MIMO構造の3改善で、16384トークンでTransformerの約6.9倍の速度を達成した。 SSM LLM Inference Architecture