技術
約3分で読めます
KugelAudio - 7BパラメータのオープンソースTTS(ComfyUI対応)
KugelAudioとは
Hasso-Plattner-Institutが開発したオープンソースのText-to-Speech(TTS)モデル。7Bパラメータという大型モデルで、AR(自己回帰)+ Diffusionアーキテクチャを採用している。
- リポジトリ: Kugelaudio/kugelaudio-open
- HuggingFace: kugelaudio/kugelaudio-0-open
- ComfyUIノード: Saganaki22/ComfyUI-KugelAudio
- ライセンス: MIT
- 学習データ: YODAS2(約20万時間)
- ベース: Microsoft VibeVoice + Qwen(LLMバックボーン)
主な機能
| 機能 | 説明 |
|---|---|
| 単一話者TTS | テキストから音声生成 |
| ボイスクローン | 5〜30秒のリファレンス音声から声を複製 |
| マルチスピーカー | 最大6話者の会話生成(Speaker N: 形式で指定) |
| ウォーターマーク | AudioSealによる不可聴透かし(検出ノードあり) |
| 4-bit量子化 | VRAM ~19GB → ~8GBに削減(CUDA専用) |
| Attention選択 | SageAttention / FlashAttention / SDPA / Eager |
対応言語は英語、ドイツ語、フランス語、スペイン語、イタリア語、ポルトガル語、オランダ語、ポーランド語、ロシア語、ウクライナ語、チェコ語、ルーマニア語、ハンガリー語、スウェーデン語、デンマーク語、フィンランド語、ノルウェー語、ギリシャ語、ブルガリア語、スロバキア語、クロアチア語、セルビア語、トルコ語の24言語。日本語は含まれていない。
ベンチマーク
開発者による人間評価A/Bテスト(339件)の結果。
| 順位 | モデル | スコア | 勝率 |
|---|---|---|---|
| 1 | KugelAudio | 26 | 78.0% |
| 2 | ElevenLabs Multi v2 | 25 | 62.2% |
| 3 | ElevenLabs v3 | 21 | 65.3% |
| 4 | Cartesia | 21 | 59.1% |
| 5 | VibeVoice | 10 | 28.8% |
| 6 | CosyVoice v3 | 9 | 14.2% |
ElevenLabsを上回るスコアを出しているのが注目点。ただし開発者自身による評価なので、独立した第三者検証ではない点は留意が必要。
必要スペック
| モード | VRAM | 備考 |
|---|---|---|
| フル精度 | ~19GB | bfloat16 |
| 4-bit量子化 | ~8GB | CUDA専用、SDPA/Eagerのみ |
生成速度はRTF(Real-Time Factor)約1.0x。10秒の音声を生成するのに約10秒かかる計算。
Apple Silicon(M1/M2/M3/M4)での動作
MPSに対応しているが、安定性に問題がある。
動作状況
- メモリ: 64GB以上あればフル精度(~19GB)で動作可能
- 精度: MPSではfloat16(bfloat16非対応のため)
- 4-bit量子化: 使用不可(bitsandbytesがCUDA専用)
既知の問題
READMEに明記されている注意点:
mps_matmulエラーが発生する可能性- 「incompatible dimensions」「LLVM ERROR」が出ることがある
- 上記エラーが出たらDevice設定を
cpuに切り替える必要あり
現実的な選択肢
- まずMPSで試す
- エラーが出たらCPUモードに切り替え(かなり遅くなる)
- 実用的な速度が必要ならクラウドGPU(RunPod等)を検討
他のTTSとの比較
このブログで過去に取り上げたTTSと比較すると:
| モデル | パラメータ | 動作環境 | 日本語 | ボイスクローン |
|---|---|---|---|---|
| KugelAudio | 7B | GPU(19GB)/ 4-bit(8GB) | ❌ | ✅ |
| Pocket TTS | 100M | CPU | ❌ | ✅ |
| VOICEVOX | - | CPU | ✅ | ❌ |
| Style-Bert-VITS2 | - | GPU推奨 | ✅ | ✅ |
KugelAudioは7Bと大型で品質重視。日本語が必要ならVOICEVOXやStyle-Bert-VITS2を使うことになる。
ComfyUIでの使い方
ComfyUI Managerから「KugelAudio」で検索してインストールするか、手動でクローン。
cd ComfyUI/custom_nodes
git clone https://github.com/Saganaki22/ComfyUI-KugelAudio.git
初回起動時にモデル(約14GB)が自動ダウンロードされる。
基本的なノード
- KugelAudio TTS: テキスト → 音声
- KugelAudio Voice Clone: リファレンス音声 + テキスト → 音声
- KugelAudio Multi-Speaker: 複数話者の会話生成
- KugelAudio Watermark Check: 生成音声の透かし検出
パラメータ
cfg_scale: ガイダンススケール(1.0〜10.0、デフォルト3.0)max_new_tokens: 最大生成長(512〜4096、デフォルト2048)use_4bit: 4-bit量子化(CUDA専用)attention_type: auto / sage_attn / flash_attn / sdpa / eagerkeep_loaded: モデルをVRAMに保持(連続生成時に高速化)
関連記事
- AIと喋れる環境を作る(1)音声API調査編 - TTS APIの比較
- Pocket TTS - CPUで動く軽量テキスト音声合成 - 100Mパラメータの軽量TTS
- Qwen-Image-Edit-2511をローカルで動かすのに必要なスペック - 量子化の比較