ACE-Step 1.5：音楽生成AIがアーキテクチャごと刷新された

V1.5が出た

前回の記事でACE-Stepを調べた直後、2026年1月31日にV1.5がリリースされた。アーキテクチャが根本から変わっていたので改めて調査した。

ライセンスはApache 2.0からMITに変更。商用利用を明示的にサポートしており、学習データも法的に準拠したもの（ライセンス取得済み楽曲、ロイヤリティフリー、合成データ）のみを使用している。

V1.0とV1.5で構成が大きく異なる。

項目	V1.0	V1.5
構成	DCAE + Linear Transformer + Flow-matching	LM + DiT
言語モデル	なし	Qwen3ベース（0.6B/1.7B/4B）

V1.5ではLM（言語モデル）がプランナーとして機能する。ユーザーのプロンプトをChain-of-Thoughtで「楽曲ブループリント」に変換し、DiT（拡散トランスフォーマー）が実際の音声を合成する2段階構成になった。

速度はステップ数に依存するので単純比較は難しいが、全体的に高速化している。特にturboモデル（8ステップ）は爆速。

V1.5では用途別に複数のモデルが用意されている。

モデル	ステップ数	CFG	品質	多様性
acestep-v15-base	50	あり	中	高
acestep-v15-sft	50	あり	高	中
acestep-v15-turbo	8	なし	非常に高	中
acestep-v15-turbo-rl	8	なし	非常に高	中

VRAMに応じて選択する。

LMなしでも動作するが、プロンプト解釈の精度が落ちる。

V1.0から追加された主な機能:

V1.0から変更点あり。

git clone https://github.com/ACE-Step/ACE-Step-1.5.git
cd ACE-Step-1.5
uv sync

# Gradio UI（デフォルトポート7860）
uv run acestep

# 日本語UIで起動
uv run acestep --language ja

# REST APIサーバー
uv run acestep-api

モデルは初回起動時に自動ダウンロードされる。手動でダウンロードする場合:

uv run acestep-download --all

V1.0ではMPS（Metal Performance Shaders）環境で「電気音」になる問題があった。float32以外のデータ型を使うと生成が失敗してノイズが出力される現象で、PR #21で修正されたものの完全には直っていなかった。

V1.5ではREADMEに「CPU/MPS対応」と明記されているが、リリースされたばかり（1月31日）でMacユーザーからのフィードバックが少ない。実際に試してみて問題が頻発するようならIssueを投げる予定。

リポジトリが別なので、既存のV1.0環境とは共存可能。V1.0用のLoRAはそのままでは使えない可能性が高い（アーキテクチャが異なるため）。

V1.0のインストールディレクトリ: ACE-Step/ V1.5のインストールディレクトリ: ACE-Step-1.5/

モデルのキャッシュ先も異なるので、ストレージ容量には注意。