技術 2026年6月14日(日) 約11分 ZONOS2はVRAM 8GBのRTX 4060 Laptopでも日本語音声を生成できた ZyphraのZONOS2を、VRAM 8GBのRTX 4060 Laptop(WSL2)でローカル実行した記録。システムメモリフォールバック+KVキャッシュ手動指定+CUDAツールキットで日本語音声の生成まで到達したが、速度は実時間の約1/20。人名「かな」が「仮名」アクセントになる問題と表記での回避も、聞き比べ音声つきで検証した。 AI TTS 音声合成 ZONOS2 Zyphra HuggingFace 日本語