#MLX

14 件の記事

技術 2026年4月2日(木) 更新約13分

SwiftLMはTurboQuantとSSDストリーミングをMetalシェーダーに統合したSwift製LLM推論サーバー

Apple Silicon専用のMLX推論サーバーSwiftLMが、TurboQuant V2+V3ハイブリッドKVキャッシュ圧縮とNVMe SSDエキスパートストリーミングをネイティブMetal実装で提供する。

Apple Silicon LLM MLX ローカルLLM 推論最適化 KVキャッシュ MoE Swift

技術 2026年3月31日(火) 約6分

OllamaがMLXバックエンドに移行、Apple Siliconでのローカル推論が劇的に高速化

Ollama 0.19がApple SiliconでのバックエンドをMLXに切り替え、プリフィル1810トークン/秒・デコード112トークン/秒を達成。NVFP4量子化サポートとキャッシュ改善も同時投入された。

Ollama MLX Apple Silicon LLM ローカルLLM 推論最適化