#音声認識

7 件の記事

技術2026年4月30日(木)更新約9分

NIIの48,000時間音声音響データセットはTTSの材料になる

NII/LLMCが公開したCC AudioとArchive.org Audio Datasetを、URLリスト、メタデータ、TTS学習、Embedding解析の違いから読む。

技術2026年2月3日(火)約2分

NVIDIAが2026年1月にリリースしたPersonaPlex-7B-v1の概要。Moshiベースで全二重会話とペルソナ制御を実現した音声対話モデル。

技術2026年1月23日(金)約8分

WebRTCで受信した音声をSpeechRecognition APIで認識しようとすると、MediaStreamの扱いで壁にぶつかる。リモート側認識、サーバ側処理、AudioContextの3つのアプローチと、iOS対応を含めた実装戦略を解説。

技術2026年1月19日(月)約5分

Web Speech API + Gemini + VOICEVOXでAIキャラと音声会話できる環境が完成。実装のポイントと使用感をまとめた

技術2026年1月11日(日)約5分

Web Speech APIやMediaRecorderを使って、ブラウザで音声入力を実装する方法を解説

技術2026年1月10日(土)約5分

キャラ付けAI+アバター+音声会話を目指して、まずは音声APIを比較調査してみた

技術2025年12月30日(火)約4分

voice-chatプロジェクトをベースに、Gemini 2.0 FlashとVOICEVOXで日本語音声チャットを実現する計画を立てる