技術 約3分で読めます

ACE-Step 1.5:音楽生成AIがアーキテクチャごと刷新された

V1.5が出た

前回の記事でACE-Stepを調べた直後、2026年1月31日にV1.5がリリースされた。アーキテクチャが根本から変わっていたので改めて調査した。

ライセンスはApache 2.0からMITに変更。商用利用を明示的にサポートしており、学習データも法的に準拠したもの(ライセンス取得済み楽曲、ロイヤリティフリー、合成データ)のみを使用している。

アーキテクチャの刷新

V1.0とV1.5で構成が大きく異なる。

項目V1.0V1.5
構成DCAE + Linear Transformer + Flow-matchingLM + DiT
言語モデルなしQwen3ベース(0.6B/1.7B/4B)

V1.5ではLM(言語モデル)がプランナーとして機能する。ユーザーのプロンプトをChain-of-Thoughtで「楽曲ブループリント」に変換し、DiT(拡散トランスフォーマー)が実際の音声を合成する2段階構成になった。

性能比較

項目V1.0V1.5
A100速度1分の曲を2.2秒2秒以下で全曲
RTX 3090速度1分の曲を4.7秒10秒以下で全曲
言語対応19言語50言語以上
最小VRAM明記なし4GB以下
最大楽曲長4分10分
バッチ生成明記なし最大8曲同時

速度はステップ数に依存するので単純比較は難しいが、全体的に高速化している。特にturboモデル(8ステップ)は爆速。

モデルバリエーション

V1.5では用途別に複数のモデルが用意されている。

DiT(拡散トランスフォーマー)

モデルステップ数CFG品質多様性
acestep-v15-base50あり
acestep-v15-sft50あり
acestep-v15-turbo8なし非常に高
acestep-v15-turbo-rl8なし非常に高

LM(言語モデル)

VRAMに応じて選択する。

VRAM推奨LM
6GB以下LMなし(DiTのみ)
6-12GBacestep-5Hz-lm-0.6B
12-16GBacestep-5Hz-lm-1.7B
16GB以上acestep-5Hz-lm-4B

LMなしでも動作するが、プロンプト解釈の精度が落ちる。

新機能

V1.0から追加された主な機能:

  • REST APIサーバー: uv run acestep-apiで起動
  • 日本語UI: --language jaオプション
  • 自動品質スコアリング: 生成結果の品質を自動評価
  • 歌詞タイムスタンプ生成: LRC形式で出力
  • オーディオ分析: BPM、キー抽出、キャプション生成
  • トラック分離: ボーカルとBGMの分離
  • 1000種以上の楽器・スタイル対応

インストール

V1.0から変更点あり。

前提条件

  • Python 3.11(V1.0は3.10)
  • uvパッケージマネージャー

手順

git clone https://github.com/ACE-Step/ACE-Step-1.5.git
cd ACE-Step-1.5
uv sync

起動

# Gradio UI(デフォルトポート7860)
uv run acestep

# 日本語UIで起動
uv run acestep --language ja

# REST APIサーバー
uv run acestep-api

モデルは初回起動時に自動ダウンロードされる。手動でダウンロードする場合:

uv run acestep-download --all

Mac(Apple Silicon)について

V1.0ではMPS(Metal Performance Shaders)環境で「電気音」になる問題があった。float32以外のデータ型を使うと生成が失敗してノイズが出力される現象で、PR #21で修正されたものの完全には直っていなかった。

V1.5ではREADMEに「CPU/MPS対応」と明記されているが、リリースされたばかり(1月31日)でMacユーザーからのフィードバックが少ない。実際に試してみて問題が頻発するようならIssueを投げる予定。

V1.0からの移行

リポジトリが別なので、既存のV1.0環境とは共存可能。V1.0用のLoRAはそのままでは使えない可能性が高い(アーキテクチャが異なるため)。

V1.0のインストールディレクトリ: ACE-Step/ V1.5のインストールディレクトリ: ACE-Step-1.5/

モデルのキャッシュ先も異なるので、ストレージ容量には注意。