音声認識の記事 | lilting channel

技術 2026年2月3日(火) 約2分

PersonaPlex: NVIDIAのリアルタイム全二重音声対話モデル

NVIDIAが2026年1月にリリースしたPersonaPlex-7B-v1の概要。Moshiベースで全二重会話とペルソナ制御を実現した音声対話モデル。

技術 2026年1月23日(金) 約8分

WebRTCで受信した音声をSpeechRecognition APIで認識しようとすると、MediaStreamの扱いで壁にぶつかる。リモート側認識、サーバ側処理、AudioContextの3つのアプローチと、iOS対応を含めた実装戦略を解説。

技術 2026年1月19日(月) 約5分

Web Speech API + Gemini + VOICEVOXでAIキャラと音声会話できる環境が完成。実装のポイントと使用感をまとめた

技術 2026年1月11日(日) 約5分

Web Speech APIやMediaRecorderを使って、ブラウザで音声入力を実装する方法を解説

技術 2026年1月10日(土) 約5分

キャラ付けAI+アバター+音声会話を目指して、まずは音声APIを比較調査してみた

技術 2025年12月30日(火) 約4分

voice-chatプロジェクトをベースに、Gemini 2.0 FlashとVOICEVOXで日本語音声チャットを実現する計画を立てる