技術2026年4月30日(木)更新約9分NIIの48,000時間音声音響データセットはTTSの材料になるNII/LLMCが公開したCC AudioとArchive.org Audio Datasetを、URLリスト、メタデータ、TTS学習、Embedding解析の違いから読む。AI音声AI音声合成音声認識TTSSTTLLM機械学習
技術2026年2月3日(火)約2分PersonaPlex: NVIDIAのリアルタイム全二重音声対話モデルNVIDIAが2026年1月にリリースしたPersonaPlex-7B-v1の概要。Moshiベースで全二重会話とペルソナ制御を実現した音声対話モデル。AI音声合成音声認識NVIDIAオープンソース
技術2026年1月23日(金)約8分WebRTCの音声をSpeechRecognition APIで認識できない問題と解決策WebRTCで受信した音声をSpeechRecognition APIで認識しようとすると、MediaStreamの扱いで壁にぶつかる。リモート側認識、サーバ側処理、AudioContextの3つのアプローチと、iOS対応を含めた実装戦略を解説。WebRTCWeb Speech API音声認識リアルタイム翻訳iOSP2PDataChannel実験
技術2026年1月19日(月)約5分AIと喋れる環境を作る(3)ついに喋れた編Web Speech API + Gemini + VOICEVOXでAIキャラと音声会話できる環境が完成。実装のポイントと使用感をまとめたAI音声認識音声合成VOICEVOXGeminiWeb Speech APISwitchBot実験
技術2026年1月11日(日)約5分AIと喋れる環境を作る(2)音声入力の実装編Web Speech APIやMediaRecorderを使って、ブラウザで音声入力を実装する方法を解説AI音声認識Web Speech APIMediaRecorderJavaScript実験
技術2026年1月10日(土)約5分AIと喋れる環境を作る(1)音声API調査編キャラ付けAI+アバター+音声会話を目指して、まずは音声APIを比較調査してみたAI音声合成音声認識TTSSTTGeminiOpenAIChatGPTVOICEVOXGoogle Cloud
技術2025年12月30日(火)約4分AIと会話を試みる(音声で)voice-chatプロジェクトをベースに、Gemini 2.0 FlashとVOICEVOXで日本語音声チャットを実現する計画を立てるAIGeminiVOICEVOX音声認識音声合成実験