技術 約2分で読めます

PersonaPlex: NVIDIAのリアルタイム全二重音声対話モデル

NVIDIAが2026年1月15日にリリースした音声対話モデル「PersonaPlex-7B-v1」について調べた。

PersonaPlexとは

リアルタイム全二重(full-duplex)音声対話AI。聞きながら同時に話せるモデル。

従来の音声AIは「聞く→処理→話す」のターン制だったが、PersonaPlexは人間同士の会話のように割り込みや相槌ができる。

主な特徴

  • デュアルストリーム: ユーザーの音声を聞きつつ、同時に音声生成
  • 割り込み・相槌対応: 自然な会話タイミングを再現
  • ペルソナ制御: テキストプロンプトで役割・性格を指定、音声プロンプトで声質を制御
  • 低遅延: ターンテイキング0.170秒、割り込み応答0.240秒

アーキテクチャ

項目内容
パラメータ数7B
ベースモデルKyutai Moshi(Moshikoウェイト)
コーデックMimi Speech Encoder/Decoder
サンプルレート24kHz
処理方式Temporal Transformer + Depth Transformer

Mimi(ConvNet + Transformer)で音声をトークン化し、Moshiアーキテクチャで処理する構成。Kyutaiが開発したMoshiをベースにしている。

学習データと性能

学習データ

Fisher English(Part 1 & 2): 約7,300件の会話(各約10分)、1万時間未満。

ベンチマーク(FullDuplexBench)

指標スコア
スムーズなターンテイキング成功率 0.908、遅延 0.170秒
ユーザー割り込み成功率 0.950、遅延 0.240秒
声の類似度(SSIM)0.650
タスク遵守(GPT-4o評価)4.29/5.0

動作要件

  • GPU: NVIDIA A100 / H100(A100 80GBで検証済み)
  • OS: Linux
  • ランタイム: PyTorch + CUDA

Apple Siliconでは動かない。CUDA必須のため、M1/M2/M3/M4では非対応。MLXへの移植やGGUF量子化版が出れば可能性はあるが、Moshiアーキテクチャ(音声トークン処理)は標準的なLLMツールでは対応困難。

ライセンス

NVIDIA Open Model License + CC-BY-4.0。商用利用可。

リソース

関連記事

このブログでも音声AI関連の記事をいくつか書いている。