ACE-Step：ローカルで動く音楽生成AI基盤モデルを調べた

ACE-Stepとは

ACE-Stepは、オープンソースの音楽生成基盤モデル。「音楽版Stable Diffusion」を標榜していて、テキストプロンプトから楽曲を生成できる。

特徴的なのは速度。A100で最大4分の楽曲を約20秒で生成できる。LLMベースの音楽生成（SunoやUdioの内部実装に近いとされるもの）と比較して約15倍速いとのこと。

Apache 2.0ライセンスで、GitHubで3,800スター以上を獲得している。

技術的には以下の組み合わせ:

画像生成AIでいうところのVAE + U-Net + CLIPの構成に近い考え方。

LoRAの学習コードも公開されているので、自分で追加学習することも可能。

git clone https://github.com/ace-step/ACE-Step.git
cd ACE-Step
pip install -e .

モデルは初回起動時に ~/.cache/ace-step/checkpoints に自動ダウンロードされる。

Apple Siliconではbfloat16が使えないため、起動時にフラグが必要:

acestep --port 7865 --bf16 false

acestep --port 7865

ブラウザで http://localhost:7865 にアクセスするとUIが表示される。

歌詞とスタイルを分けて指定する形式:

[verse]
ここに歌詞を書く
La la la

[chorus]
サビの歌詞

スタイル指定は別フィールドで「J-pop, female vocal, energetic」のように書く。

公式ベンチマーク（27ステップ、バッチサイズ1）:

M2 Maxで26秒/分なので、M1 Maxでは30秒前後と予想される。メモリ64GBは余裕で足りる。

リアルタイムの2〜3倍速程度なので、4分の曲を2分弱で生成できる計算。実用レベル。

ローカルで動くメリットは大きい。特に商用利用やカスタマイズ性を重視する場合は検討の価値あり。

品質面ではSunoやUdioにはまだ及ばないという評価が多い。V1.5が開発中とのことなので、今後に期待。

公式ロードマップによると:

ControlNet対応が来れば、メロディを指定して伴奏を生成するような使い方もできるようになりそう。