MOVA: オープンソース初の映像・音声同時生成モデル

クローズドの動画生成AIでは、Sora 2やVeo 3、Kling、Google Flowなど音声付き出力に対応したものが増えてきた。ただし映像と音声の同期精度はまちまちで、リップシンクが微妙だったり、環境音がズレていたりする例も散見される。

一方、オープンソースではWan 2.xやHunyuanVideoなど優秀なモデルはあるものの、音声は別途生成して合成する必要があった。

OpenMOSSチームが公開したMOVA（MOSS Video and Audio）は、映像と音声を1回の推論で同時生成するオープンソース初のモデル。クローズドに頼らずローカルで映像・音声同時生成を試せるようになった。

MOVAの概要

HuggingFaceで重みとコードが公開されている。

MOVAは非対称デュアルタワー設計を採用している。事前学習済みの動画生成タワーと音声生成タワーを、双方向クロスアテンションで融合する構成。

MoE構成はWan 2.2と同じアプローチで、推論コストを抑えながら品質を確保する設計。動画と音声を別々に生成してから合成するカスケードパイプラインと違い、1パスで同時生成することで誤差の蓄積を防いでいる。

2026年1月にShengShu Technologyが発表したVidu Q3も映像・音声同時生成に対応している。両者を比較する。

Vidu Q3は最大16秒と尺が長く、ベンチマーク（Artificial Analysis）で中国1位・世界2位の評価を得ている。一方でAPIアクセスのみでローカル実行はできない。

MOVAは尺では劣るが、完全にローカルで動かせる点とファインチューニング可能な点で差別化されている。APIコストやプライバシーを気にせず実験できるのは大きい。

現状のローカル向け動画生成モデル（Wan 2.x、LTX-2、HunyuanVideo等）は音声生成に対応していない。別途TTSやfoleyモデルで音声を生成し、ffmpegで合成する必要があった。

MOVAはこのギャップを埋める初のオープンソースモデルとなる。

ただしVRAM要件は未検証。32Bパラメータ（18Bアクティブ）という規模から、Wan 2.x（8GB〜）より重く、Open-Sora 2.0（40GB+）に近い可能性がある。RTX 4090（24GB）で動くかは要確認。

「動画と音声を同時に」はVidu Q3で実現されていたが、クローズドモデルだったので手元で試せなかった。MOVAがApache 2.0で公開されたことで、ローカル環境でも映像・音声同時生成の実験ができるようになった。

8秒という尺の短さは気になるが、ショートクリップやSNS向けの素材生成には十分使える長さ。LoRAでキャラクターや声質を調整できるなら、用途は広がりそう。

VRAM要件と実際の生成品質は、動かしてみないとわからない部分が多い。ComfyUIのノードが出てきたら試してみたい。