技術 2026年4月2日(木) 更新 約13分 SwiftLMはTurboQuantとSSDストリーミングをMetalシェーダーに統合したSwift製LLM推論サーバー Apple Silicon専用のMLX推論サーバーSwiftLMが、TurboQuant V2+V3ハイブリッドKVキャッシュ圧縮とNVMe SSDエキスパートストリーミングをネイティブMetal実装で提供する。 Apple Silicon LLM MLX ローカルLLM 推論最適化 KVキャッシュ MoE Swift
技術 2026年3月31日(火) 約6分 OllamaがMLXバックエンドに移行、Apple Siliconでのローカル推論が劇的に高速化 Ollama 0.19がApple SiliconでのバックエンドをMLXに切り替え、プリフィル1810トークン/秒・デコード112トークン/秒を達成。NVFP4量子化サポートとキャッシュ改善も同時投入された。 Ollama MLX Apple Silicon LLM ローカルLLM 推論最適化