技術 2026年2月14日(土) 約6分 MimikaStudio - 複数TTSエンジンをGUIで束ねるローカルTTSアプリ Qwen3-TTS、Chatterbox、Kokoro、IndexTTS-2を一つのGUIに統合したローカルファーストのボイスクローン&TTS&オーディオブック作成アプリ。FastAPIバックエンド+Flutter UI+MCPサーバーの構成。 AI TTS 音声合成 ボイスクローン Flutter
技術 2026年2月12日(木) 約7分 MioTTS - コーデックから自作した軽量LLMベースTTS Aratakoが公開したMioTTS。独自コーデックMioCodecからフルスクラッチ開発された0.1B〜2.6Bの日英対応TTSモデル群。llama.cppやOllamaでそのまま動く設計が特徴的。 AI TTS 音声合成 オープンソース LLM
技術 2026年2月7日(土) 約6分 Qwen3-TTS - pip一発で使えるオープンソース音声合成 Alibaba Qwenチームが公開したQwen3-TTSの技術解説。pip install一発でセットアップ完了、3秒のボイスクローン、自然言語での声デザイン、日本語含む10言語対応。Apache 2.0ライセンス。 AI TTS 音声合成 オープンソース LLM
技術 2026年2月3日(火) 約2分 PersonaPlex: NVIDIAのリアルタイム全二重音声対話モデル NVIDIAが2026年1月にリリースしたPersonaPlex-7B-v1の概要。Moshiベースで全二重会話とペルソナ制御を実現した音声対話モデル。 AI 音声合成 音声認識 NVIDIA オープンソース
技術 2026年2月3日(火) 約3分 KugelAudio - 7BパラメータのオープンソースTTS(ComfyUI対応) ヨーロッパ24言語対応、ボイスクローン機能付きのText-to-Speech。ElevenLabsを上回るベンチマーク結果を出したオープンソースモデル。 ComfyUI TTS 音声合成 AI
技術 2026年1月19日(月) 約5分 AIと喋れる環境を作る(3)ついに喋れた編 Web Speech API + Gemini + VOICEVOXでAIキャラと音声会話できる環境が完成。実装のポイントと使用感をまとめた AI 音声認識 音声合成 VOICEVOX Gemini Web Speech API SwitchBot
技術 2026年1月15日(木) 約4分 Pocket TTS - CPUで動く軽量テキスト音声合成 100MパラメータでCPU上でリアルタイムより高速に動作するオープンソースTTS。ボイスクローニングにも対応。 AI 音声合成 TTS オープンソース
技術 2026年1月10日(土) 約5分 AIと喋れる環境を作る(1)音声API調査編 キャラ付けAI+アバター+音声会話を目指して、まずは音声APIを比較調査してみた AI 音声合成 音声認識 TTS STT Gemini OpenAI ChatGPT VOICEVOX Google Cloud
技術 2025年12月30日(火) 約4分 AIと会話を試みる(音声で) voice-chatプロジェクトをベースに、Gemini 2.0 FlashとVOICEVOXで日本語音声チャットを実現する計画を立てる AI Gemini VOICEVOX 音声認識 音声合成