MOVA: オープンソース初の映像・音声同時生成モデル
クローズドの動画生成AIでは、Sora 2やVeo 3、Kling、Google Flowなど音声付き出力に対応したものが増えてきた。ただし映像と音声の同期精度はまちまちで、リップシンクが微妙だったり、環境音がズレていたりする例も散見される。
一方、オープンソースではWan 2.xやHunyuanVideoなど優秀なモデルはあるものの、音声は別途生成して合成する必要があった。
OpenMOSSチームが公開したMOVA(MOSS Video and Audio)は、映像と音声を1回の推論で同時生成するオープンソース初のモデル。クローズドに頼らずローカルで映像・音声同時生成を試せるようになった。
MOVAの概要
- 開発元: OpenMOSSチーム(上海イノベーション機構/復旦大学/MOSI Intelligence)
- ライセンス: Apache 2.0
- モデル: 720p版と360p版を公開
- 対応タスク: Text-to-Video-Audio(T2VA)、Image-to-Video-Audio(IT2VA)
- 出力: 最大720p、8秒
HuggingFaceで重みとコードが公開されている。
アーキテクチャ
MOVAは非対称デュアルタワー設計を採用している。事前学習済みの動画生成タワーと音声生成タワーを、双方向クロスアテンションで融合する構成。
- 総パラメータ: 32B
- 推論時アクティブ: 18B(Mixture-of-Experts)
MoE構成はWan 2.2と同じアプローチで、推論コストを抑えながら品質を確保する設計。動画と音声を別々に生成してから合成するカスケードパイプラインと違い、1パスで同時生成することで誤差の蓄積を防いでいる。
特徴的な機能
- 多言語リップシンク: 口の動きとセリフの同期でSoTAを主張
- 環境音効果: シーンに応じた効果音の自動生成
- LoRAファインチューニング: 学習スクリプトも公開されており、特定用途への調整が可能
Vidu Q3との比較
2026年1月にShengShu Technologyが発表したVidu Q3も映像・音声同時生成に対応している。両者を比較する。
| 項目 | MOVA-720p | Vidu Q3 |
|---|---|---|
| ライセンス | Apache 2.0 | クローズド(API) |
| パラメータ | 32B(18Bアクティブ) | 非公開 |
| 最大尺 | 8秒 | 16秒 |
| 解像度 | 720p | 不明 |
| ローカル実行 | 可能 | 不可 |
| ファインチューニング | LoRA対応 | 不可 |
Vidu Q3は最大16秒と尺が長く、ベンチマーク(Artificial Analysis)で中国1位・世界2位の評価を得ている。一方でAPIアクセスのみでローカル実行はできない。
MOVAは尺では劣るが、完全にローカルで動かせる点とファインチューニング可能な点で差別化されている。APIコストやプライバシーを気にせず実験できるのは大きい。
ローカル実行の位置づけ
現状のローカル向け動画生成モデル(Wan 2.x、LTX-2、HunyuanVideo等)は音声生成に対応していない。別途TTSやfoleyモデルで音声を生成し、ffmpegで合成する必要があった。
MOVAはこのギャップを埋める初のオープンソースモデルとなる。
ただしVRAM要件は未検証。32Bパラメータ(18Bアクティブ)という規模から、Wan 2.x(8GB〜)より重く、Open-Sora 2.0(40GB+)に近い可能性がある。RTX 4090(24GB)で動くかは要確認。
所感
「動画と音声を同時に」はVidu Q3で実現されていたが、クローズドモデルだったので手元で試せなかった。MOVAがApache 2.0で公開されたことで、ローカル環境でも映像・音声同時生成の実験ができるようになった。
8秒という尺の短さは気になるが、ショートクリップやSNS向けの素材生成には十分使える長さ。LoRAでキャラクターや声質を調整できるなら、用途は広がりそう。
VRAM要件と実際の生成品質は、動かしてみないとわからない部分が多い。ComfyUIのノードが出てきたら試してみたい。