技術 約3分で読めます

KugelAudio - 7BパラメータのオープンソースTTS(ComfyUI対応)

KugelAudioとは

Hasso-Plattner-Institutが開発したオープンソースのText-to-Speech(TTS)モデル。7Bパラメータという大型モデルで、AR(自己回帰)+ Diffusionアーキテクチャを採用している。

主な機能

機能説明
単一話者TTSテキストから音声生成
ボイスクローン5〜30秒のリファレンス音声から声を複製
マルチスピーカー最大6話者の会話生成(Speaker N: 形式で指定)
ウォーターマークAudioSealによる不可聴透かし(検出ノードあり)
4-bit量子化VRAM ~19GB → ~8GBに削減(CUDA専用)
Attention選択SageAttention / FlashAttention / SDPA / Eager

対応言語は英語、ドイツ語、フランス語、スペイン語、イタリア語、ポルトガル語、オランダ語、ポーランド語、ロシア語、ウクライナ語、チェコ語、ルーマニア語、ハンガリー語、スウェーデン語、デンマーク語、フィンランド語、ノルウェー語、ギリシャ語、ブルガリア語、スロバキア語、クロアチア語、セルビア語、トルコ語の24言語。日本語は含まれていない。

ベンチマーク

開発者による人間評価A/Bテスト(339件)の結果。

順位モデルスコア勝率
1KugelAudio2678.0%
2ElevenLabs Multi v22562.2%
3ElevenLabs v32165.3%
4Cartesia2159.1%
5VibeVoice1028.8%
6CosyVoice v3914.2%

ElevenLabsを上回るスコアを出しているのが注目点。ただし開発者自身による評価なので、独立した第三者検証ではない点は留意が必要。

必要スペック

モードVRAM備考
フル精度~19GBbfloat16
4-bit量子化~8GBCUDA専用、SDPA/Eagerのみ

生成速度はRTF(Real-Time Factor)約1.0x。10秒の音声を生成するのに約10秒かかる計算。

Apple Silicon(M1/M2/M3/M4)での動作

MPSに対応しているが、安定性に問題がある。

動作状況

  • メモリ: 64GB以上あればフル精度(~19GB)で動作可能
  • 精度: MPSではfloat16(bfloat16非対応のため)
  • 4-bit量子化: 使用不可(bitsandbytesがCUDA専用)

既知の問題

READMEに明記されている注意点:

  • mps_matmulエラーが発生する可能性
  • 「incompatible dimensions」「LLVM ERROR」が出ることがある
  • 上記エラーが出たらDevice設定をcpuに切り替える必要あり

現実的な選択肢

  1. まずMPSで試す
  2. エラーが出たらCPUモードに切り替え(かなり遅くなる)
  3. 実用的な速度が必要ならクラウドGPU(RunPod等)を検討

他のTTSとの比較

このブログで過去に取り上げたTTSと比較すると:

モデルパラメータ動作環境日本語ボイスクローン
KugelAudio7BGPU(19GB)/ 4-bit(8GB)
Pocket TTS100MCPU
VOICEVOX-CPU
Style-Bert-VITS2-GPU推奨

KugelAudioは7Bと大型で品質重視。日本語が必要ならVOICEVOXやStyle-Bert-VITS2を使うことになる。

ComfyUIでの使い方

ComfyUI Managerから「KugelAudio」で検索してインストールするか、手動でクローン。

cd ComfyUI/custom_nodes
git clone https://github.com/Saganaki22/ComfyUI-KugelAudio.git

初回起動時にモデル(約14GB)が自動ダウンロードされる。

基本的なノード

  • KugelAudio TTS: テキスト → 音声
  • KugelAudio Voice Clone: リファレンス音声 + テキスト → 音声
  • KugelAudio Multi-Speaker: 複数話者の会話生成
  • KugelAudio Watermark Check: 生成音声の透かし検出

パラメータ

  • cfg_scale: ガイダンススケール(1.0〜10.0、デフォルト3.0)
  • max_new_tokens: 最大生成長(512〜4096、デフォルト2048)
  • use_4bit: 4-bit量子化(CUDA専用)
  • attention_type: auto / sage_attn / flash_attn / sdpa / eager
  • keep_loaded: モデルをVRAMに保持(連続生成時に高速化)

関連記事