技術 2026年4月19日(日) 約12分 WebAssemblyとMetalでゼロコピーGPU推論をApple Siliconに実装する mmap→MTLBuffer(bytesNoCopy)→Wasmtime MemoryCreatorの3段チェーンで、WasmリニアメモリとGPUバッファの物理アドレスを一致させる実装。M1上でLlama 3.2 1Bを9ms/tokenで動かした。 WebAssembly Metal AppleSilicon MLX Wasmtime LLM