技術
約2分で読めます
PersonaPlex: NVIDIAのリアルタイム全二重音声対話モデル
NVIDIAが2026年1月15日にリリースした音声対話モデル「PersonaPlex-7B-v1」について調べた。
PersonaPlexとは
リアルタイム全二重(full-duplex)音声対話AI。聞きながら同時に話せるモデル。
従来の音声AIは「聞く→処理→話す」のターン制だったが、PersonaPlexは人間同士の会話のように割り込みや相槌ができる。
主な特徴
- デュアルストリーム: ユーザーの音声を聞きつつ、同時に音声生成
- 割り込み・相槌対応: 自然な会話タイミングを再現
- ペルソナ制御: テキストプロンプトで役割・性格を指定、音声プロンプトで声質を制御
- 低遅延: ターンテイキング0.170秒、割り込み応答0.240秒
アーキテクチャ
| 項目 | 内容 |
|---|---|
| パラメータ数 | 7B |
| ベースモデル | Kyutai Moshi(Moshikoウェイト) |
| コーデック | Mimi Speech Encoder/Decoder |
| サンプルレート | 24kHz |
| 処理方式 | Temporal Transformer + Depth Transformer |
Mimi(ConvNet + Transformer)で音声をトークン化し、Moshiアーキテクチャで処理する構成。Kyutaiが開発したMoshiをベースにしている。
学習データと性能
学習データ
Fisher English(Part 1 & 2): 約7,300件の会話(各約10分)、1万時間未満。
ベンチマーク(FullDuplexBench)
| 指標 | スコア |
|---|---|
| スムーズなターンテイキング | 成功率 0.908、遅延 0.170秒 |
| ユーザー割り込み | 成功率 0.950、遅延 0.240秒 |
| 声の類似度(SSIM) | 0.650 |
| タスク遵守(GPT-4o評価) | 4.29/5.0 |
動作要件
- GPU: NVIDIA A100 / H100(A100 80GBで検証済み)
- OS: Linux
- ランタイム: PyTorch + CUDA
Apple Siliconでは動かない。CUDA必須のため、M1/M2/M3/M4では非対応。MLXへの移植やGGUF量子化版が出れば可能性はあるが、Moshiアーキテクチャ(音声トークン処理)は標準的なLLMツールでは対応困難。
ライセンス
NVIDIA Open Model License + CC-BY-4.0。商用利用可。
リソース
関連記事
このブログでも音声AI関連の記事をいくつか書いている。
- Pocket TTS - CPUで動く軽量テキスト音声合成: PersonaPlexのベースであるMoshiを開発したKyutai LabsのTTSモデル
- AIと喋れる環境を作る(1)音声API調査編: Gemini Live APIやOpenAI Realtime APIなどリアルタイム音声APIの比較
- AIと喋れる環境を作る(3)ついに喋れた編: Web Speech API + Gemini + VOICEVOXで音声対話を実装した記録