音声AI の記事 | lilting channel

技術2026年4月30日(木)更新約9分

NIIの48,000時間音声音響データセットはTTSの材料になる

NII/LLMCが公開したCC AudioとArchive.org Audio Datasetを、URLリスト、メタデータ、TTS学習、Embedding解析の違いから読む。

技術2026年2月6日(金)約6分

Qwen3-Omni: 3BアクティブのMoEでテキスト・画像・音声・動画を統合処理するオムニモーダルモデル

Alibabaが公開したQwen3-Omni-30B-A3Bの技術解説。30Bパラメータ中3Bのみアクティベートするオムニモーダルモデルで、テキスト・画像・音声・動画の入力から音声付きで応答する。Thinker-Talkerアーキテクチャ、ベンチマーク、Qwen3 MoEファミリーの全体像を整理した。

AI LLM オープンソースマルチモーダル音声AI

#音声AI

NIIの48,000時間音声音響データセットはTTSの材料になる

Qwen3-Omni: 3BアクティブのMoEでテキスト・画像・音声・動画を統合処理するオムニモーダルモデル