技術 2026年2月3日(火) 約2分 PersonaPlex: NVIDIAのリアルタイム全二重音声対話モデル NVIDIAが2026年1月にリリースしたPersonaPlex-7B-v1の概要。Moshiベースで全二重会話とペルソナ制御を実現した音声対話モデル。 AI 音声合成 音声認識 NVIDIA オープンソース
技術 2026年1月23日(金) 約8分 WebRTCの音声をSpeechRecognition APIで認識できない問題と解決策 WebRTCで受信した音声をSpeechRecognition APIで認識しようとすると、MediaStreamの扱いで壁にぶつかる。リモート側認識、サーバ側処理、AudioContextの3つのアプローチと、iOS対応を含めた実装戦略を解説。 WebRTC Web Speech API 音声認識 リアルタイム翻訳 iOS P2P DataChannel
技術 2026年1月19日(月) 約5分 AIと喋れる環境を作る(3)ついに喋れた編 Web Speech API + Gemini + VOICEVOXでAIキャラと音声会話できる環境が完成。実装のポイントと使用感をまとめた AI 音声認識 音声合成 VOICEVOX Gemini Web Speech API SwitchBot
技術 2026年1月11日(日) 約5分 AIと喋れる環境を作る(2)音声入力の実装編 Web Speech APIやMediaRecorderを使って、ブラウザで音声入力を実装する方法を解説 AI 音声認識 Web Speech API MediaRecorder JavaScript
技術 2026年1月10日(土) 約5分 AIと喋れる環境を作る(1)音声API調査編 キャラ付けAI+アバター+音声会話を目指して、まずは音声APIを比較調査してみた AI 音声合成 音声認識 TTS STT Gemini OpenAI ChatGPT VOICEVOX Google Cloud
技術 2025年12月30日(火) 約4分 AIと会話を試みる(音声で) voice-chatプロジェクトをベースに、Gemini 2.0 FlashとVOICEVOXで日本語音声チャットを実現する計画を立てる AI Gemini VOICEVOX 音声認識 音声合成