技術 約3分で読めます

MOVA: オープンソース初の映像・音声同時生成モデル

クローズドの動画生成AIでは、Sora 2やVeo 3、Kling、Google Flowなど音声付き出力に対応したものが増えてきた。ただし映像と音声の同期精度はまちまちで、リップシンクが微妙だったり、環境音がズレていたりする例も散見される。

一方、オープンソースではWan 2.xやHunyuanVideoなど優秀なモデルはあるものの、音声は別途生成して合成する必要があった。

OpenMOSSチームが公開したMOVA(MOSS Video and Audio)は、映像と音声を1回の推論で同時生成するオープンソース初のモデル。クローズドに頼らずローカルで映像・音声同時生成を試せるようになった。

MOVAの概要

  • 開発元: OpenMOSSチーム(上海イノベーション機構/復旦大学/MOSI Intelligence)
  • ライセンス: Apache 2.0
  • モデル: 720p版と360p版を公開
  • 対応タスク: Text-to-Video-Audio(T2VA)、Image-to-Video-Audio(IT2VA)
  • 出力: 最大720p、8秒

HuggingFaceで重みとコードが公開されている。

アーキテクチャ

MOVAは非対称デュアルタワー設計を採用している。事前学習済みの動画生成タワーと音声生成タワーを、双方向クロスアテンションで融合する構成。

  • 総パラメータ: 32B
  • 推論時アクティブ: 18B(Mixture-of-Experts)

MoE構成はWan 2.2と同じアプローチで、推論コストを抑えながら品質を確保する設計。動画と音声を別々に生成してから合成するカスケードパイプラインと違い、1パスで同時生成することで誤差の蓄積を防いでいる。

特徴的な機能

  • 多言語リップシンク: 口の動きとセリフの同期でSoTAを主張
  • 環境音効果: シーンに応じた効果音の自動生成
  • LoRAファインチューニング: 学習スクリプトも公開されており、特定用途への調整が可能

Vidu Q3との比較

2026年1月にShengShu Technologyが発表したVidu Q3も映像・音声同時生成に対応している。両者を比較する。

項目MOVA-720pVidu Q3
ライセンスApache 2.0クローズド(API)
パラメータ32B(18Bアクティブ)非公開
最大尺8秒16秒
解像度720p不明
ローカル実行可能不可
ファインチューニングLoRA対応不可

Vidu Q3は最大16秒と尺が長く、ベンチマーク(Artificial Analysis)で中国1位・世界2位の評価を得ている。一方でAPIアクセスのみでローカル実行はできない。

MOVAは尺では劣るが、完全にローカルで動かせる点とファインチューニング可能な点で差別化されている。APIコストやプライバシーを気にせず実験できるのは大きい。

ローカル実行の位置づけ

現状のローカル向け動画生成モデル(Wan 2.x、LTX-2、HunyuanVideo等)は音声生成に対応していない。別途TTSやfoleyモデルで音声を生成し、ffmpegで合成する必要があった。

MOVAはこのギャップを埋める初のオープンソースモデルとなる。

ただしVRAM要件は未検証。32Bパラメータ(18Bアクティブ)という規模から、Wan 2.x(8GB〜)より重く、Open-Sora 2.0(40GB+)に近い可能性がある。RTX 4090(24GB)で動くかは要確認。

所感

「動画と音声を同時に」はVidu Q3で実現されていたが、クローズドモデルだったので手元で試せなかった。MOVAがApache 2.0で公開されたことで、ローカル環境でも映像・音声同時生成の実験ができるようになった。

8秒という尺の短さは気になるが、ショートクリップやSNS向けの素材生成には十分使える長さ。LoRAでキャラクターや声質を調整できるなら、用途は広がりそう。

VRAM要件と実際の生成品質は、動かしてみないとわからない部分が多い。ComfyUIのノードが出てきたら試してみたい。