#音声合成

16 件の記事

技術2026年7月19日(日)約5分

RTX3050Ti 4GBでSTT+LLM+TTSサーバーを立てる

音声を受け取って返答音声で返すサーバーをRTX 3050 Ti 4GBの一台構成で組んだ。kotoba-whisperとQwen3-ASR-0.6BのSTT比較、文単位ストリーミングTTS、フィラー音声で待ち時間を埋めた設計、実測タイムラインまでまとめた。

Qwen TTS STT 音声合成音声認識 VPS Tailscale 実験

技術2026年7月6日(月)約4分

VRAM 4GBのRTX 3050 Ti LaptopでIrodori-TTSの日本語ボイスクローンを試した

Flow MatchingベースのローカルTTS「Irodori-TTS」をWindows + RTX 3050 Ti Laptop（VRAM 4GB）で実行。通常のTTS生成とボイスクローンの音声サンプル、所要時間、MP3のお手本でFFmpegのDLLエラーが出る問題の回避策をまとめた。

AI TTS 音声合成ボイスクローンローカルAI 実験

技術2026年6月14日(日)更新約10分

ZONOS2はVRAM 8GBのRTX 4060 Laptopでも日本語音声を生成できた

ZyphraのZONOS2を、VRAM 8GBのRTX 4060 Laptop（WSL2）でローカル実行した記録。システムメモリフォールバック＋KVキャッシュ手動指定＋CUDAツールキットで日本語音声の生成まで到達したが、速度は実時間の約1/20。人名「かな」が「仮名」アクセントになる問題と表記での回避も、聞き比べ音声つきで検証した。

AI TTS 音声合成 ZONOS2 Zyphra HuggingFace 日本語実験

技術2026年5月13日(水)約9分

VoxCPM2含めOSS TTSが7方向に割れてきた

VoxCPM2のtokenizer-free方式を起点に、F5-TTSやCosyVoice2など7モデルの方向の違い、Irodori-TTSやStyle-Bert-VITS2など日本語特化TTSの位置づけ、台本+OpenJTalkで音素を作る学習データの仕組み、ボイスクローン悪用リスクまでを整理した。

AI TTS 音声合成ボイスクローンローカルAI オープンソースファインチューニング

技術2026年4月30日(木)更新約9分

NIIの48,000時間音声音響データセットはTTSの材料になる

NII/LLMCが公開したCC AudioとArchive.org Audio Datasetを、URLリスト、メタデータ、TTS学習、Embedding解析の違いから読む。

AI 音声AI 音声合成音声認識 TTS STT LLM 機械学習

技術2026年4月28日(火)約6分

Sarashina2.2-TTSは日本語寄りのゼロショット音声合成モデル

SB Intuitionsが公開したsarashina2.2-ttsを調べた。日本語中心のLLMベースTTSで、短い参照音声から話者・話し方を再現し、日英生成やコードスイッチにも対応する。

AI TTS 音声合成 LLM ボイスクローン

技術2026年3月17日(火)約4分

LuxTTS - 1GB VRAMで動くZipVoiceベースの軽量ボイスクローニング

ZipVoiceアーキテクチャを4ステップに蒸留し、1GB VRAM・150倍リアルタイムの速度でボイスクローンを実現するオープンソースTTS。過去に取り上げたTTSモデルとの比較も含めて整理した。

AI TTS 音声合成 OSS ボイスクローン

技術2026年2月14日(土)約6分

MimikaStudio - 複数TTSエンジンをGUIで束ねるローカルTTSアプリ

Qwen3-TTS、Chatterbox、Kokoro、IndexTTS-2を一つのGUIに統合したローカルファーストのボイスクローン＆TTS＆オーディオブック作成アプリ。FastAPIバックエンド＋Flutter UI＋MCPサーバーの構成。

AI TTS 音声合成ボイスクローン Flutter

技術2026年2月12日(木)約7分

MioTTS - コーデックから自作した軽量LLMベースTTS

Aratakoが公開したMioTTS。独自コーデックMioCodecからフルスクラッチ開発された0.1B〜2.6Bの日英対応TTSモデル群。llama.cppやOllamaでそのまま動く設計が特徴的。

AI TTS 音声合成オープンソース LLM

技術2026年2月7日(土)約6分

Qwen3-TTS - pip一発で使えるオープンソース音声合成

Alibaba Qwenチームが公開したQwen3-TTSの技術解説。pip install一発でセットアップ完了、3秒のボイスクローン、自然言語での声デザイン、日本語含む10言語対応。Apache 2.0ライセンス。

AI TTS 音声合成オープンソース LLM

技術2026年2月3日(火)約2分

PersonaPlex: NVIDIAのリアルタイム全二重音声対話モデル

NVIDIAが2026年1月にリリースしたPersonaPlex-7B-v1の概要。Moshiベースで全二重会話とペルソナ制御を実現した音声対話モデル。

AI 音声合成音声認識 NVIDIA オープンソース

技術2026年2月3日(火)約3分

KugelAudio - 7BパラメータのオープンソースTTS（ComfyUI対応）

ヨーロッパ24言語対応、ボイスクローン機能付きのText-to-Speech。ElevenLabsを上回るベンチマーク結果を出したオープンソースモデル。

ComfyUI TTS 音声合成 AI