ACE-Step 1.5:音楽生成AIがアーキテクチャごと刷新された
V1.5が出た
前回の記事でACE-Stepを調べた直後、2026年1月31日にV1.5がリリースされた。アーキテクチャが根本から変わっていたので改めて調査した。
- GitHub: ACE-Step-1.5(V1.0とは別リポジトリ)
- arxiv論文
- Hugging Face
ライセンスはApache 2.0からMITに変更。商用利用を明示的にサポートしており、学習データも法的に準拠したもの(ライセンス取得済み楽曲、ロイヤリティフリー、合成データ)のみを使用している。
アーキテクチャの刷新
V1.0とV1.5で構成が大きく異なる。
| 項目 | V1.0 | V1.5 |
|---|---|---|
| 構成 | DCAE + Linear Transformer + Flow-matching | LM + DiT |
| 言語モデル | なし | Qwen3ベース(0.6B/1.7B/4B) |
V1.5ではLM(言語モデル)がプランナーとして機能する。ユーザーのプロンプトをChain-of-Thoughtで「楽曲ブループリント」に変換し、DiT(拡散トランスフォーマー)が実際の音声を合成する2段階構成になった。
性能比較
| 項目 | V1.0 | V1.5 |
|---|---|---|
| A100速度 | 1分の曲を2.2秒 | 2秒以下で全曲 |
| RTX 3090速度 | 1分の曲を4.7秒 | 10秒以下で全曲 |
| 言語対応 | 19言語 | 50言語以上 |
| 最小VRAM | 明記なし | 4GB以下 |
| 最大楽曲長 | 4分 | 10分 |
| バッチ生成 | 明記なし | 最大8曲同時 |
速度はステップ数に依存するので単純比較は難しいが、全体的に高速化している。特にturboモデル(8ステップ)は爆速。
モデルバリエーション
V1.5では用途別に複数のモデルが用意されている。
DiT(拡散トランスフォーマー)
| モデル | ステップ数 | CFG | 品質 | 多様性 |
|---|---|---|---|---|
| acestep-v15-base | 50 | あり | 中 | 高 |
| acestep-v15-sft | 50 | あり | 高 | 中 |
| acestep-v15-turbo | 8 | なし | 非常に高 | 中 |
| acestep-v15-turbo-rl | 8 | なし | 非常に高 | 中 |
LM(言語モデル)
VRAMに応じて選択する。
| VRAM | 推奨LM |
|---|---|
| 6GB以下 | LMなし(DiTのみ) |
| 6-12GB | acestep-5Hz-lm-0.6B |
| 12-16GB | acestep-5Hz-lm-1.7B |
| 16GB以上 | acestep-5Hz-lm-4B |
LMなしでも動作するが、プロンプト解釈の精度が落ちる。
新機能
V1.0から追加された主な機能:
- REST APIサーバー:
uv run acestep-apiで起動 - 日本語UI:
--language jaオプション - 自動品質スコアリング: 生成結果の品質を自動評価
- 歌詞タイムスタンプ生成: LRC形式で出力
- オーディオ分析: BPM、キー抽出、キャプション生成
- トラック分離: ボーカルとBGMの分離
- 1000種以上の楽器・スタイル対応
インストール
V1.0から変更点あり。
前提条件
- Python 3.11(V1.0は3.10)
- uvパッケージマネージャー
手順
git clone https://github.com/ACE-Step/ACE-Step-1.5.git
cd ACE-Step-1.5
uv sync
起動
# Gradio UI(デフォルトポート7860)
uv run acestep
# 日本語UIで起動
uv run acestep --language ja
# REST APIサーバー
uv run acestep-api
モデルは初回起動時に自動ダウンロードされる。手動でダウンロードする場合:
uv run acestep-download --all
Mac(Apple Silicon)について
V1.0ではMPS(Metal Performance Shaders)環境で「電気音」になる問題があった。float32以外のデータ型を使うと生成が失敗してノイズが出力される現象で、PR #21で修正されたものの完全には直っていなかった。
V1.5ではREADMEに「CPU/MPS対応」と明記されているが、リリースされたばかり(1月31日)でMacユーザーからのフィードバックが少ない。実際に試してみて問題が頻発するようならIssueを投げる予定。
V1.0からの移行
リポジトリが別なので、既存のV1.0環境とは共存可能。V1.0用のLoRAはそのままでは使えない可能性が高い(アーキテクチャが異なるため)。
V1.0のインストールディレクトリ: ACE-Step/
V1.5のインストールディレクトリ: ACE-Step-1.5/
モデルのキャッシュ先も異なるので、ストレージ容量には注意。