MimikaStudio - 複数TTSエンジンをGUIで束ねるローカルTTSアプリ

ローカルTTSをやろうとすると、Qwen3-TTSのPythonスクリプトを書いたり、Chatterboxの環境を別に立てたり、エンジンごとにセットアップが必要になる。MimikaStudioはそれらを一つのGUIアプリに統合して、ボイスクローンからオーディオブック作成まで完結させるプロジェクト。

リポジトリ: BoltzmannEntropy/MimikaStudio
公式サイト: mimikastudio.github.io
ライセンス: BSL-1.1（ソースコード）/ 独自ライセンス（バイナリ）
バージョン: 2026.02

何ができるか

機能	説明
ボイスクローン	3秒のリファレンス音声から声を複製。複数エンジン間で音声ライブラリを共有
テキスト読み上げ	プリセット音声やカスタム音声でTTS生成。スタイル指示にも対応
PDF読み上げ	文ごとにハイライトしながら音声再生
オーディオブック作成	PDF、EPUB、TXT、Markdown、DOCXをWAV、MP3、M4Bに変換。チャプターマーカー付き

搭載エンジン

MimikaStudioは4つのTTSエンジンを内蔵している。

Kokoro（82Mパラメータ）

軽量・高速な英語TTS。21種のイギリス英語・アメリカ英語ボイスを搭載。Apple SiliconのMetal GPUで200ms以下のレイテンシを実現する。日本語は非対応。

Qwen3-TTS（0.6B / 1.7B）

以前の記事で詳しく書いたが、Alibaba Qwenチームが開発したオープンソースTTS。MimikaStudioではBaseモデルによるボイスクローンと、CustomVoiceモデルによるプリセット音声の両方が使える。

ボイスクローン: 3秒のリファレンス音声から声を複製（10言語対応）
CustomVoice: 9種のプリセットスピーカー（Ryan、Aiden、Vivian、Ono Annaなど）
スタイル指示: 「whisper softly」のように感情や話し方を制御可能

Chatterbox

Resemble AIが開発したマルチリンガルTTS。23言語に対応しており、MimikaStudioが搭載するエンジンの中で最も言語カバレッジが広い。

対応言語: アラビア語、中国語、デンマーク語、英語、フィンランド語、フランス語、ドイツ語、ギリシャ語、ヘブライ語、ヒンディー語、イタリア語、日本語、韓国語、マレー語、オランダ語、ノルウェー語、ポーランド語、ポルトガル語、ロシア語、スペイン語、スウェーデン語、トルコ語、スワヒリ語

Apple SiliconではCPU動作になる。ヘブライ語のTTSにはDicta ONNXモデル（約1.1GB）が必要で、インストール時に自動ダウンロードされる。

IndexTTS-2

ゼロショットTTSモデル。WER（Word Error Rate）、話者類似度、感情表現のいずれでもSOTAレベルのスコアを出している。動画の吹き替えなど、尺の精密制御が必要な用途に強い。モデルサイズは約24GBとかなり大きい。

エンジン比較

エンジン	パラメータ	日本語	ボイスクローン	言語数	特徴
Kokoro	82M	❌	❌	1（英語のみ）	高速・軽量
Qwen3-TTS	0.6B / 1.7B	✅	✅	10	バランス型
Chatterbox	-	✅	✅	23	多言語
IndexTTS-2	~24GB	-	✅	-	高品質・大型

アーキテクチャ

3つのプロセスで構成される。

┌─────────────────┐
│  Flutter UI      │ ← デスクトップアプリ or ブラウザ（:5173）
└────────┬────────┘
         │ REST API
┌────────▼────────┐
│  FastAPI Backend │ ← ポート8000、60以上のエンドポイント
│  （Python）       │    TTS推論、音声管理、オーディオブック生成
└────────┬────────┘
         │
┌────────▼────────┐
│  MCP Server      │ ← ポート8010、50以上のツール
│                  │    Claude Code等から操作可能
└─────────────────┘

バックエンド: FastAPI（Python、約8,500行）。TTSエンジンのラッパー、音声ファイル管理、オーディオブック生成を担当
フロントエンド: Flutter/Dart（約10,100行）。デスクトップアプリまたはWebブラウザから利用可能
MCP Server: Model Context Protocolに対応。Claude CodeやMCP対応クライアントからTTS生成やボイス管理を操作できる
データベース: SQLiteでボイスライブラリとプロジェクト情報を管理

合計で約18,600行のコードベース。

MCPサーバー連携

MimikaStudioのMCPサーバーは50以上のツールを公開しており、Claude Codeから直接TTS生成やボイス管理ができる。

提供されるツールのカテゴリ:

全エンジンでのTTS生成
ボイスサンプルの管理（アップロード、削除、プレビュー）
オーディオブック生成と進捗監視
システム情報とリアルタイムモニタリング
モデルステータスの確認とダウンロード

AIコーディングツールとTTSの組み合わせは、台本を書いてそのまま音声化するようなワークフローで使える。

必要スペック

項目	要件
OS	macOS 13+（Ventura以降）
チップ	Apple Silicon（M1/M2/M3/M4）
RAM	8GB以上（16GB以上推奨）
ストレージ	5〜10GB（モデル用）
Python	3.10以上
Flutter	3.x（デスクトップサポート有効）

Intel Macは非対応。Windows版はコードベースとしてはCUDA対応だが、ビルド済みバイナリはまだ提供されていない。

インストール

git clone https://github.com/BoltzmannEntropy/MimikaStudio.git
cd MimikaStudio
./install.sh

install.shがHomebrew、Python、espeak-ng、ffmpegの確認・インストール、venv作成、依存関係のインストール、SQLiteデータベースの初期化、Flutterの設定をすべて行う。モデルは初回使用時に自動ダウンロードされる（合計約3GB）。

起動

source venv/bin/activate

# デスクトップアプリ（バックエンド + MCP + Flutter）
./bin/mimikactl up

# Webブラウザで使う場合
./bin/mimikactl up --web
# → http://127.0.0.1:5173

# バックエンド + MCPのみ（GUIなし、API経由で操作）
./bin/mimikactl up --no-flutter

CLIツール

GUIを使わずにコマンドラインからも操作できる。

# Kokoroで英語TTS
./bin/mimika kokoro "Hello world" --voice bf_emma --output hello.wav

# Qwen3-TTSのプリセット音声
./bin/mimika qwen3 "こんにちは" --speaker Ono_Anna --style "穏やかに"

# Qwen3-TTSでボイスクローン
./bin/mimika qwen3 "テスト" --clone --reference voice.wav

ファイル入力（TXT、PDF、EPUB、DOCX）にも対応。バッチ処理に便利。

個別にTTSエンジンを使う場合との比較

Qwen3-TTSだけならpip install qwen-ttsで済む。Chatterboxも同様にpipで入る。では何のためにMimikaStudioが必要なのか。

MimikaStudioを使う利点:

複数エンジンの音声ライブラリを統合管理できる（クローンした声を全エンジンで使い回し）
PDF、EPUB等のドキュメントをそのままオーディオブックに変換できる
GUIでパラメータ調整（temperature、top_p、top_k等）しながら試行錯誤できる
MCPサーバー経由でAIツールと連携できる
モデルのダウンロード管理がGUIから完結する

個別エンジンを直接使うほうが良い場合:

特定のエンジンしか使わない
Pythonスクリプトに組み込みたい
カスタムのパイプラインを構築したい
macOS以外で動かしたい

ライセンスについて

ソースコードはBSL-1.1（Business Source License 1.1）。個人利用や内部利用は無料だが、完全なオープンソース（MIT、Apache 2.0等）ではない。一定期間後にGPL-2.0に移行する予定。バイナリ配布には別途ライセンス（Mimika Binary Distribution License）が適用される。商用利用には個別ライセンスが必要。

搭載している各TTSエンジン自体のライセンスは別で、Qwen3-TTSはApache 2.0、ChatterboxはMIT。MimikaStudio固有のコードに対してBSL-1.1が適用される形。

Qwen3-TTS - pip一発で使えるオープンソース音声合成 - Qwen3-TTS単体の詳細な技術解説
KugelAudio - 7BパラメータのオープンソースTTS（ComfyUI対応） - 別のTTSエンジン
Pocket TTS - CPUで動く軽量テキスト音声合成 - 100Mの超軽量TTS
AIと喋れる環境を作る（1）音声API調査編 - TTS APIの比較