技術 2026年3月31日(火) 約6分 OllamaがMLXバックエンドに移行、Apple Siliconでのローカル推論が劇的に高速化 Ollama 0.19がApple SiliconでのバックエンドをMLXに切り替え、プリフィル1810トークン/秒・デコード112トークン/秒を達成。NVFP4量子化サポートとキャッシュ改善も同時投入された。 Ollama MLX Apple Silicon LLM ローカルLLM 推論最適化