技術2026年6月14日(日)更新約10分ZONOS2はVRAM 8GBのRTX 4060 Laptopでも日本語音声を生成できたZyphraのZONOS2を、VRAM 8GBのRTX 4060 Laptop(WSL2)でローカル実行した記録。システムメモリフォールバック+KVキャッシュ手動指定+CUDAツールキットで日本語音声の生成まで到達したが、速度は実時間の約1/20。人名「かな」が「仮名」アクセントになる問題と表記での回避も、聞き比べ音声つきで検証した。AITTS音声合成ZONOS2ZyphraHuggingFace日本語実験
技術2026年5月13日(水)約9分VoxCPM2含めOSS TTSが7方向に割れてきたVoxCPM2のtokenizer-free方式を起点に、F5-TTSやCosyVoice2など7モデルの方向の違い、Irodori-TTSやStyle-Bert-VITS2など日本語特化TTSの位置づけ、台本+OpenJTalkで音素を作る学習データの仕組み、ボイスクローン悪用リスクまでを整理した。AITTS音声合成ボイスクローンローカルAIオープンソースファインチューニング
技術2026年4月30日(木)更新約9分NIIの48,000時間音声音響データセットはTTSの材料になるNII/LLMCが公開したCC AudioとArchive.org Audio Datasetを、URLリスト、メタデータ、TTS学習、Embedding解析の違いから読む。AI音声AI音声合成音声認識TTSSTTLLM機械学習
技術2026年4月28日(火)約6分Sarashina2.2-TTSは日本語寄りのゼロショット音声合成モデルSB Intuitionsが公開したsarashina2.2-ttsを調べた。日本語中心のLLMベースTTSで、短い参照音声から話者・話し方を再現し、日英生成やコードスイッチにも対応する。AITTS音声合成LLMボイスクローン
技術2026年3月17日(火)約4分LuxTTS - 1GB VRAMで動くZipVoiceベースの軽量ボイスクローニングZipVoiceアーキテクチャを4ステップに蒸留し、1GB VRAM・150倍リアルタイムの速度でボイスクローンを実現するオープンソースTTS。過去に取り上げたTTSモデルとの比較も含めて整理した。AITTS音声合成OSSボイスクローン
技術2026年2月14日(土)約6分MimikaStudio - 複数TTSエンジンをGUIで束ねるローカルTTSアプリQwen3-TTS、Chatterbox、Kokoro、IndexTTS-2を一つのGUIに統合したローカルファーストのボイスクローン&TTS&オーディオブック作成アプリ。FastAPIバックエンド+Flutter UI+MCPサーバーの構成。AITTS音声合成ボイスクローンFlutter
技術2026年2月12日(木)約7分MioTTS - コーデックから自作した軽量LLMベースTTSAratakoが公開したMioTTS。独自コーデックMioCodecからフルスクラッチ開発された0.1B〜2.6Bの日英対応TTSモデル群。llama.cppやOllamaでそのまま動く設計が特徴的。AITTS音声合成オープンソースLLM
技術2026年2月7日(土)約6分Qwen3-TTS - pip一発で使えるオープンソース音声合成Alibaba Qwenチームが公開したQwen3-TTSの技術解説。pip install一発でセットアップ完了、3秒のボイスクローン、自然言語での声デザイン、日本語含む10言語対応。Apache 2.0ライセンス。AITTS音声合成オープンソースLLM
技術2026年2月3日(火)約2分PersonaPlex: NVIDIAのリアルタイム全二重音声対話モデルNVIDIAが2026年1月にリリースしたPersonaPlex-7B-v1の概要。Moshiベースで全二重会話とペルソナ制御を実現した音声対話モデル。AI音声合成音声認識NVIDIAオープンソース
技術2026年2月3日(火)約3分KugelAudio - 7BパラメータのオープンソースTTS(ComfyUI対応)ヨーロッパ24言語対応、ボイスクローン機能付きのText-to-Speech。ElevenLabsを上回るベンチマーク結果を出したオープンソースモデル。ComfyUITTS音声合成AI
技術2026年1月19日(月)約5分AIと喋れる環境を作る(3)ついに喋れた編Web Speech API + Gemini + VOICEVOXでAIキャラと音声会話できる環境が完成。実装のポイントと使用感をまとめたAI音声認識音声合成VOICEVOXGeminiWeb Speech APISwitchBot実験
技術2026年1月15日(木)約4分Pocket TTS - CPUで動く軽量テキスト音声合成100MパラメータでCPU上でリアルタイムより高速に動作するオープンソースTTS。ボイスクローニングにも対応。AI音声合成TTSオープンソース