Seedance 2.0が出たので、ローカル動画生成とクラウドの「楽さ」を比べてみる

ByteDanceのSeedance 2.0がDreaminaで使えるようになった。SNSでは「Sora 2やVeo 3.1を超えた」と盛り上がっている。自分はローカルでWan 2.xやComfyUIをいじってきた側で、Seedance 2.0は触っていない。ただ「結局どっちが楽なの」は気になるので、ローカルの実体験とSeedance 2.0のスペックを突き合わせて考えてみた。

前提として、ローカルとクラウドでは「作りたいもの」のレイヤーが違う。ローカルは「とりあえず動画を生成してみる」技術検証寄りの用途、クラウドは「それなりにクリエイティブな動画を作る」制作寄りの用途。同じ動画生成でも目的が違うので、単純な優劣ではなく「それぞれの楽さ」を整理する。

Seedance 2.0の概要

ByteDanceのSeedチームが開発した動画生成モデル。Dreamina（CapCut系のプラットフォーム）でブラウザから利用できる。

主な特徴:

マルチモーダル入力: テキスト・画像・動画・音声の4種を組み合わせて動画生成
マルチショット生成: 1プロンプトから複数カットの一貫したストーリー動画を生成
音声同時生成: BGM・効果音・セリフを映像と同時に生成、多言語リップシンク対応
Universal Reference: 最大5枚の画像 + 3本の動画を参照してキャラやスタイルの一貫性を保持
解像度: 720p〜1080p、5〜12秒、アスペクト比は16:9/4:3/1:1/3:4/9:16

前バージョンのSeedance 1.0はArtificial AnalysisのVideo Arenaでtext-to-video・image-to-video両部門1位を取っている。2.0はそこからマルチショットと音声生成を追加した形。

ローカル動画生成の楽さとつらさ

1月のまとめ記事でも書いたが、ローカルで回すならWan 2.1/2.2が8GB VRAMから動いてコスパが良い。ComfyUIでワークフローを組めば、画像→動画の流れをノードで管理できる。

楽なところ

試行錯誤の自由度が高い。 プロンプトを変えて何十回でも回せる。クレジット残量を気にしなくていい。LoRAを差し替えたり、ControlNetで動きを制御したり、パラメータを細かくいじれる。「なんか違う」を繰り返して追い込んでいく作業はローカルの方がやりやすい。

プライバシーの心配がない。 素材をクラウドにアップロードしなくていい。同人や二次創作の素材を使う場合、外部サービスに投げるのは抵抗がある人もいるだろう。

学びがある。 モデルの挙動を直接観察できるので、「なぜこの動きになったのか」が分かりやすい。ステップ数やCFGスケールとoutputの関係を肌で覚えていく。

つらいところ

セットアップが重い。 ComfyUIの環境構築、モデルのダウンロード（数十GB）、CUDAドライバの整合性、カスタムノードの依存関係……。動くまでの初期コストが高い。環境が壊れたときのデバッグも地味に時間を取られる。

品質の天井がある。 ローカルモデルはinstruction followingの精度がクラウド勢と比べて落ちる。「縄跳びして」みたいな具体的動作の指示がうまく通らないことが多い。元画像を活かして雰囲気のある動きをつける用途が現実的で、「狙った演出を一発で出す」のは厳しい。

生成速度はGPU次第。 RTX 4090でも1クリップ数十秒〜数分。パラメータをいじるたびに待つ。クラウドAPIなら同等以上の速度が安定して出る。

クラウド動画生成の楽さとつらさ

Seedance 2.0に限らず、Sora 2、Veo 3.1、Kling 2.x等のクラウドサービス全般の話。

楽なところ

セットアップゼロ。 ブラウザを開いてプロンプトを入力するだけ。GPUもドライバも不要。この差は大きい。ローカルで環境構築に半日潰した経験があると、「アカウント作って即使える」のありがたさが身に染みる。

品質が高い。 特にSeedance 2.0のマルチショット生成は、ローカルでは再現が難しい。複数カットでキャラや背景の一貫性を保ちつつ、カット間の繋がりも自然に処理してくれる。音声同時生成もローカルだと別モデルを組み合わせる必要があるが、クラウドなら1回のリクエストで完結する。

instruction followingが強い。 プロンプトの意図をちゃんと拾ってくれる。「カメラがゆっくりパンして、人物が振り返る」みたいな具体的な演出指示が通りやすい。

つらいところ

クレジットが減る。 無料枠はあるが、試行錯誤を重ねるとすぐに使い切る。クレジットを気にしながらプロンプトを推敲する作業は、ローカルの「とりあえず回す」感覚とは違うストレスがある。

ブラックボックス。 なぜその出力になったかの内部ロジックが見えない。パラメータもプロンプトとリファレンス画像くらいしか触れるものがない。LoRAやControlNetのような細かい制御はできない。

サービス依存。 APIが変わる、価格が変わる、サービスが終了する、利用規約が変わる。外部サービスに制作フローを依存するリスクは常にある。

「楽さ」の軸が違う

整理すると、ローカルとクラウドでは「楽さ」の意味が違う。

軸	ローカル	クラウド
セットアップ	つらい	楽
試行錯誤のコスト	楽（無制限）	つらい（クレジット制）
品質の上限	低め	高い
細かい制御	楽（パラメータ直接操作）	つらい（ブラックボックス）
マルチショット	つらい（手動で繋ぐ）	楽（モデルが一貫性を保持）
音声同時生成	つらい（別モデルを組み合わせ）	楽（ワンリクエスト）
ランニングコスト	電気代のみ	従量課金

ローカルは「自由に試行錯誤しながら素材を作る」のが楽。クラウドは「セットアップなしでクリエイティブな完成品を作る」のが楽。

自分の場合、ブログ用のちょっとした動きのあるカットやサムネ素材ならローカルで十分。一方、ストーリー性のある複数カットの動画や音声付きコンテンツを作りたいなら、Seedance 2.0のようなクラウドサービスの方が明らかに楽だと思う。

Seedance 2.0で気になる点

触ってないので推測だが、いくつか気になるところがある。

マルチショットの一貫性は本当に使えるのか。 公式デモは綺麗に仕上がっているが、実際にユーザーが自分の素材で使ったときにどこまで一貫性が保たれるかは未知数。Seedance 1.0の時点でVideo Arena 1位だったので、技術力は確かだとは思う。

ローカルモデルとの併用。 画像生成はローカルのStable Diffusionで作り込んで、その画像をSeedance 2.0のi2vに投げて動画化する、みたいなハイブリッド運用ができれば一番いいかもしれない。画像の制御性はローカル、動画化の品質はクラウド、という使い分け。

APIの公開。 Dreaminaのブラウザ操作だけだと制作ワークフローに組み込みにくい。APIが公開されれば、Remotionから叩いてプログラマブルな動画制作に使える可能性がある。現時点ではグローバル向けのパブリックAPIは未確認。

動画生成AIは進化が速すぎて、数ヶ月後にはまた勢力図が変わっている可能性が高い。とはいえ「ローカルで自由に実験」と「クラウドで高品質な制作」という棲み分けは当面変わらなさそうだし、両方の特性を理解して使い分けるのが一番楽だろうな、という結論に落ち着いた。