KugelAudio - 7BパラメータのオープンソースTTS（ComfyUI対応）

KugelAudioとは

Hasso-Plattner-Institutが開発したオープンソースのText-to-Speech（TTS）モデル。7Bパラメータという大型モデルで、AR（自己回帰）+ Diffusionアーキテクチャを採用している。

リポジトリ: Kugelaudio/kugelaudio-open
HuggingFace: kugelaudio/kugelaudio-0-open
ComfyUIノード: Saganaki22/ComfyUI-KugelAudio
ライセンス: MIT
学習データ: YODAS2（約20万時間）
ベース: Microsoft VibeVoice + Qwen（LLMバックボーン）

主な機能

機能	説明
単一話者TTS	テキストから音声生成
ボイスクローン	5〜30秒のリファレンス音声から声を複製
マルチスピーカー	最大6話者の会話生成（`Speaker N:` 形式で指定）
ウォーターマーク	AudioSealによる不可聴透かし（検出ノードあり）
4-bit量子化	VRAM ~19GB → ~8GBに削減（CUDA専用）
Attention選択	SageAttention / FlashAttention / SDPA / Eager

対応言語は英語、ドイツ語、フランス語、スペイン語、イタリア語、ポルトガル語、オランダ語、ポーランド語、ロシア語、ウクライナ語、チェコ語、ルーマニア語、ハンガリー語、スウェーデン語、デンマーク語、フィンランド語、ノルウェー語、ギリシャ語、ブルガリア語、スロバキア語、クロアチア語、セルビア語、トルコ語の24言語。日本語は含まれていない。

ベンチマーク

開発者による人間評価A/Bテスト（339件）の結果。

順位	モデル	スコア	勝率
1	KugelAudio	26	78.0%
2	ElevenLabs Multi v2	25	62.2%
3	ElevenLabs v3	21	65.3%
4	Cartesia	21	59.1%
5	VibeVoice	10	28.8%
6	CosyVoice v3	9	14.2%

ElevenLabsを上回るスコアを出しているのが注目点。ただし開発者自身による評価なので、独立した第三者検証ではない点は留意が必要。

必要スペック

モード	VRAM	備考
フル精度	~19GB	bfloat16
4-bit量子化	~8GB	CUDA専用、SDPA/Eagerのみ

生成速度はRTF（Real-Time Factor）約1.0x。10秒の音声を生成するのに約10秒かかる計算。

Apple Silicon（M1/M2/M3/M4）での動作

MPSに対応しているが、安定性に問題がある。

動作状況

メモリ: 64GB以上あればフル精度（~19GB）で動作可能
精度: MPSではfloat16（bfloat16非対応のため）
4-bit量子化: 使用不可（bitsandbytesがCUDA専用）

既知の問題

READMEに明記されている注意点：

mps_matmulエラーが発生する可能性
「incompatible dimensions」「LLVM ERROR」が出ることがある
上記エラーが出たらDevice設定をcpuに切り替える必要あり

現実的な選択肢

まずMPSで試す
エラーが出たらCPUモードに切り替え（かなり遅くなる）
実用的な速度が必要ならクラウドGPU（RunPod等）を検討

他のTTSとの比較

このブログで過去に取り上げたTTSと比較すると：

モデル	パラメータ	動作環境	日本語	ボイスクローン
KugelAudio	7B	GPU（19GB）/ 4-bit（8GB）	❌	✅
Pocket TTS	100M	CPU	❌	✅
VOICEVOX	-	CPU	✅	❌
Style-Bert-VITS2	-	GPU推奨	✅	✅

KugelAudioは7Bと大型で品質重視。日本語が必要ならVOICEVOXやStyle-Bert-VITS2を使うことになる。

ComfyUIでの使い方

ComfyUI Managerから「KugelAudio」で検索してインストールするか、手動でクローン。

cd ComfyUI/custom_nodes
git clone https://github.com/Saganaki22/ComfyUI-KugelAudio.git

初回起動時にモデル（約14GB）が自動ダウンロードされる。

基本的なノード

KugelAudio TTS: テキスト → 音声
KugelAudio Voice Clone: リファレンス音声 + テキスト → 音声
KugelAudio Multi-Speaker: 複数話者の会話生成
KugelAudio Watermark Check: 生成音声の透かし検出

パラメータ

cfg_scale: ガイダンススケール（1.0〜10.0、デフォルト3.0）
max_new_tokens: 最大生成長（512〜4096、デフォルト2048）
use_4bit: 4-bit量子化（CUDA専用）
attention_type: auto / sage_attn / flash_attn / sdpa / eager
keep_loaded: モデルをVRAMに保持（連続生成時に高速化）

AIと喋れる環境を作る（1）音声API調査編 - TTS APIの比較
Pocket TTS - CPUで動く軽量テキスト音声合成 - 100Mパラメータの軽量TTS
Qwen-Image-Edit-2511をローカルで動かすのに必要なスペック - 量子化の比較