技術 2026年2月3日(火) 約2分 PersonaPlex: NVIDIAのリアルタイム全二重音声対話モデル NVIDIAが2026年1月にリリースしたPersonaPlex-7B-v1の概要。Moshiベースで全二重会話とペルソナ制御を実現した音声対話モデル。 AI 音声合成 音声認識 NVIDIA オープンソース
技術 2026年1月23日(金) 約8分 WebRTCの音声をSpeechRecognition APIで認識できない問題と解決策 WebRTCで受信した音声をSpeechRecognition APIで認識しようとすると、MediaStreamの扱いで壁にぶつかる。リモート側認識、サーバ側処理、AudioContextの3つのアプローチと、iOS対応を含めた実装戦略を解説。 WebRTC Web Speech API 音声認識 リアルタイム翻訳 iOS P2P DataChannel 実験
技術 2026年1月19日(月) 約5分 AIと喋れる環境を作る(3)ついに喋れた編 Web Speech API + Gemini + VOICEVOXでAIキャラと音声会話できる環境が完成。実装のポイントと使用感をまとめた AI 音声認識 音声合成 VOICEVOX Gemini Web Speech API SwitchBot 実験
技術 2026年1月11日(日) 約5分 AIと喋れる環境を作る(2)音声入力の実装編 Web Speech APIやMediaRecorderを使って、ブラウザで音声入力を実装する方法を解説 AI 音声認識 Web Speech API MediaRecorder JavaScript 実験
技術 2026年1月10日(土) 約5分 AIと喋れる環境を作る(1)音声API調査編 キャラ付けAI+アバター+音声会話を目指して、まずは音声APIを比較調査してみた AI 音声合成 音声認識 TTS STT Gemini OpenAI ChatGPT VOICEVOX Google Cloud
技術 2025年12月30日(火) 約4分 AIと会話を試みる(音声で) voice-chatプロジェクトをベースに、Gemini 2.0 FlashとVOICEVOXで日本語音声チャットを実現する計画を立てる AI Gemini VOICEVOX 音声認識 音声合成 実験