#音声合成

14 件の記事

技術2026年6月14日(日)更新約10分

ZONOS2はVRAM 8GBのRTX 4060 Laptopでも日本語音声を生成できた

ZyphraのZONOS2を、VRAM 8GBのRTX 4060 Laptop（WSL2）でローカル実行した記録。システムメモリフォールバック＋KVキャッシュ手動指定＋CUDAツールキットで日本語音声の生成まで到達したが、速度は実時間の約1/20。人名「かな」が「仮名」アクセントになる問題と表記での回避も、聞き比べ音声つきで検証した。

AI TTS 音声合成 ZONOS2 Zyphra HuggingFace 日本語実験

技術2026年5月13日(水)約9分

VoxCPM2含めOSS TTSが7方向に割れてきた

VoxCPM2のtokenizer-free方式を起点に、F5-TTSやCosyVoice2など7モデルの方向の違い、Irodori-TTSやStyle-Bert-VITS2など日本語特化TTSの位置づけ、台本+OpenJTalkで音素を作る学習データの仕組み、ボイスクローン悪用リスクまでを整理した。

AI TTS 音声合成ボイスクローンローカルAI オープンソースファインチューニング

技術2026年4月30日(木)更新約9分

NIIの48,000時間音声音響データセットはTTSの材料になる

NII/LLMCが公開したCC AudioとArchive.org Audio Datasetを、URLリスト、メタデータ、TTS学習、Embedding解析の違いから読む。

AI 音声AI 音声合成音声認識 TTS STT LLM 機械学習

技術2026年4月28日(火)約6分

Sarashina2.2-TTSは日本語寄りのゼロショット音声合成モデル

SB Intuitionsが公開したsarashina2.2-ttsを調べた。日本語中心のLLMベースTTSで、短い参照音声から話者・話し方を再現し、日英生成やコードスイッチにも対応する。

AI TTS 音声合成 LLM ボイスクローン

技術2026年3月17日(火)約4分

LuxTTS - 1GB VRAMで動くZipVoiceベースの軽量ボイスクローニング

ZipVoiceアーキテクチャを4ステップに蒸留し、1GB VRAM・150倍リアルタイムの速度でボイスクローンを実現するオープンソースTTS。過去に取り上げたTTSモデルとの比較も含めて整理した。

AI TTS 音声合成 OSS ボイスクローン

技術2026年2月14日(土)約6分

MimikaStudio - 複数TTSエンジンをGUIで束ねるローカルTTSアプリ

Qwen3-TTS、Chatterbox、Kokoro、IndexTTS-2を一つのGUIに統合したローカルファーストのボイスクローン＆TTS＆オーディオブック作成アプリ。FastAPIバックエンド＋Flutter UI＋MCPサーバーの構成。

AI TTS 音声合成ボイスクローン Flutter

技術2026年2月12日(木)約7分

MioTTS - コーデックから自作した軽量LLMベースTTS

Aratakoが公開したMioTTS。独自コーデックMioCodecからフルスクラッチ開発された0.1B〜2.6Bの日英対応TTSモデル群。llama.cppやOllamaでそのまま動く設計が特徴的。

AI TTS 音声合成オープンソース LLM

技術2026年2月7日(土)約6分

Qwen3-TTS - pip一発で使えるオープンソース音声合成

Alibaba Qwenチームが公開したQwen3-TTSの技術解説。pip install一発でセットアップ完了、3秒のボイスクローン、自然言語での声デザイン、日本語含む10言語対応。Apache 2.0ライセンス。

AI TTS 音声合成オープンソース LLM

技術2026年2月3日(火)約2分

PersonaPlex: NVIDIAのリアルタイム全二重音声対話モデル

NVIDIAが2026年1月にリリースしたPersonaPlex-7B-v1の概要。Moshiベースで全二重会話とペルソナ制御を実現した音声対話モデル。

AI 音声合成音声認識 NVIDIA オープンソース

技術2026年2月3日(火)約3分

KugelAudio - 7BパラメータのオープンソースTTS（ComfyUI対応）

ヨーロッパ24言語対応、ボイスクローン機能付きのText-to-Speech。ElevenLabsを上回るベンチマーク結果を出したオープンソースモデル。

ComfyUI TTS 音声合成 AI

技術2026年1月19日(月)約5分

AIと喋れる環境を作る（3）ついに喋れた編

Web Speech API + Gemini + VOICEVOXでAIキャラと音声会話できる環境が完成。実装のポイントと使用感をまとめた

AI 音声認識音声合成 VOICEVOX Gemini Web Speech API SwitchBot 実験

技術2026年1月15日(木)約4分

Pocket TTS - CPUで動く軽量テキスト音声合成

100MパラメータでCPU上でリアルタイムより高速に動作するオープンソースTTS。ボイスクローニングにも対応。

AI 音声合成 TTS オープンソース