技術 約6分で読めます

動画生成AI 2026年1月のアップデートまとめとi2vの現在地

2026年1月は動画生成AIのアップデートが集中した月だった。各社のリリースを整理しつつ、i2v(画像→動画)で実用的に使えるのかを考えてみる。

2026年1月の主要アップデート

Kling O1(1/8)

Kuaishou(快手)による統合型マルチモーダル動画モデル。テキスト・画像・動画を統合的に入力でき、生成と編集を1つのモデルで完結できる。Chain of Thought(CoT)アプローチでプロンプト解釈精度が向上した。

参照画像を使ったときの一貫性が改善されており、「狙った画を出す」用途では以前より安定している。

後述するエージェント機能(1/29)と合わせて、画像生成→動画化の一気通貫を目指している。

Runway Workflows(1/8)

ノードベースのワークフロー機能。プロンプト→生成→調整の工程をノードで繋いで流れ作業化できる。複数カットを作るときに便利。

画質アップというより制作体験の改善という位置づけ。

Niji Journey V7(1/10)

Midjourney/Spellbrushによるアニメ特化画像生成モデルの新バージョン。線画の一貫性、プロンプト忠実性、テキスト描画が大幅に向上。

フラットなレンダリングで実際のアニメ制作スタイルに近い表現ができるようになった。線画ベース・漫画風・手描き風の「線で魅せる系」が狙いやすくなっている。ただし--cref(キャラクター参照)は未対応で、代替機能を開発中とのこと。

Veo 3.1(1/14)

Google DeepMindの動画生成モデル。ネイティブ9:16縦型動画生成、最大3枚の参照画像による「Ingredients to Video」機能、4Kアップスケール(3840x2160)に対応した。

参照画像からの生成品質は改善されたが、複数参照を入れるとズレることがある。一貫性は「まあまあ良い」程度で、完璧を期待すると物足りない。

フロントエンドはGoogle Flow。Flowの「Frames to Video」(開始・終了画像を指定して補間生成)は後述するi2vの活用法として面白い。

Runway Gen-4.5 i2v(1/22)

Gen-4.5は物理シミュレーション・モーション品質が向上した最新モデル。カメラワーク、カラーグレーディング、人物のリアリティなど、シネマティックな雰囲気の出しやすさが頭一つ抜ける。

一方でプロンプト忠実度や一貫性にクセがあり、「こう動いてほしい」が素直に通らないことがある。

Vidu Q2 Pro(1/27)

ShengShu Technology(生数科技)のV2V(動画→動画)モデル。動画2本+画像4枚を同時に参照できる。「この動きは残して背景だけ変える」みたいな編集的な使い方ができる。

元動画の良い部分を残しながら新要素を足せるので、シリーズ物や連続シーンに向いている。

Klingのエージェント(1/29)

会話だけで画像→コンテ→動画化まで進められるエージェント機能。保存して別ページに行って再アップロード、みたいな地味なストレスが減る。

ただし画像生成を丸投げするとキャラの一貫性が崩れることがある。キャラは自分で基準素材を作って、エージェントには展開を任せる使い分けが現実的。

Vidu Q3(1/30)

業界初の音声・映像同時生成に対応した長尺AIモデル。最大16秒のネイティブAV出力が可能で、セリフ・効果音・BGMを生成し、口の動きも自動で合わせてくれる。

Artificial Analysisのベンチマークで中国1位・世界2位。1回の生成で完成品に近いところまで行けるのが強み。

Grok Imagine API(1/28)

xAIのGrok Imagine APIが公開。i2v・t2v・ネイティブ音声生成を統合。IVEBenchの人間評価で競合を上回ったと主張している。

instruction following(指示追従)の精度が高く、i2v+t2vの複合利用で狙った演出を出しやすい。

i2vで「意図したアニメーション」は作れるか

アップデートは華やかだが、実際にi2vで意図通りの動きを作れるかというと、まだ制約が多い。

元画像にないものは出しづらい

i2vモデル全般の傾向として、入力画像を「初期状態」として強く拘束する。元画像に存在しないオブジェクトをプロンプトで追加すると、どこからともなく湧いてきたり手から生えたりして不自然になる。

例えばGrok Imagineで、手ぶらの状態の絵を与えて「縄跳びして」と指示すると、縄跳びがどこかから出現してきて動きが微妙になる。あらかじめ絵の中に全ての要素が入っていると自然に動く。

つまり実用的なワークフローは:

  1. 画像生成の段階で全要素を仕込む(キャラ+小道具+背景を1枚に)
  2. i2vで動きだけ指示する

i2vの前段階の画像生成(t2iやimg2img)の品質と制御性が、実質的なボトルネックになる。

前後絵指定(Frames to Video)の可能性

Google FlowのFrames to VideoやRunway Gen-4.5のFirst/Last Frame機能で、開始フレームと終了フレームを指定して間を補間生成できる。

これが使えそうなケース:

  • キャラのポーズAからポーズBへの遷移
  • カメラアングルの変化(寄り→引き等)
  • 表情変化、視線移動

厳しいケース:

  • 途中で特定のアクションを挟みたい(A→途中でジャンプ→B等)
  • 複数キャラの相互作用
  • 物理的に正確な動き(物を投げて受け取る等)

AとBの間をどう埋めるかの制御が足りないのが今の限界。前後絵だけだと途中経路はAI任せのガチャになる。中間フレームも指定できるようになれば精度は上がるが、そうなるとコマ数が増えて下準備が重くなるジレンマがある。

短尺解説動画は厳しい

YouTube Shortsのような短尺解説動画を一発生成で作るのは、現状どのモデルでも厳しい。動画生成AIが得意なのは雰囲気のあるシネマティックショットやキャラの動きであって、テキストの正確な表示、図解やハイライトの情報設計、セリフと口の動きの正確な同期といった解説動画に必要な要素はまだ苦手。

現実的にはRemotion等のプログラマブルな映像制作ツールで骨格(テロップ・レイアウト・タイミング)を作り、背景やイメージカットだけi2vで生成して差し込むハイブリッド構成が妥当なところ。

ローカルで動くi2vモデル

クラウドAPIに頼らずローカルで動かせるオープンソースモデルも充実してきた。

Wan 2.1 / 2.2(Alibaba)- 第一候補

現時点で最も人気のあるローカル向けi2vモデル。軽量版は8GB VRAMで動く。2.2ではMixture-of-Experts(MoE)構成を採用し、初期レイアウト用の高ノイズエキスパートと細部仕上げ用の低ノイズエキスパートを使い分けることで、推論コストを増やさずに品質を向上させている。

ComfyUIのノードが揃っており、ワークフローを組みやすい。

LTX-2(Lightricks)

2026年1月6日リリース。ネイティブ4K・50fps・音声同時生成に対応し、RTX 4090単体で動作する。モデルアーキテクチャ、学習済み重み、学習コード、データセット、推論ツールがすべて公開されている。

HunyuanVideo 1.5(Tencent)

元は13Bパラメータだったが1.5で8.3Bに軽量化。オフロード時は14GB VRAMから動作可能。

VRAM目安

モデルVRAM
Wan 2.1/2.2(軽量版)8GB〜
LTX-224GB(RTX 4090推奨)
HunyuanVideo 1.514GB〜(オフロード時)
Open-Sora 2.040GB+

ローカルの弱点として、クラウドAPI勢と比べてinstruction followingの精度は落ちる。「縄跳びして」みたいな動き指定の忠実度はあまり期待しない方がいい。元画像を活かして雰囲気のある動きをつける用途が現実的。

現時点での所感

2026年1月は各社が一斉にアップデートを出してきて動画生成AI市場が活況だが、「意図した演出を一発で出す」という観点ではまだ発展途上。

実用的な使い方としては:

  • 画像生成の段階で全要素を仕込む → i2vで動かすのが最も安定
  • instruction followingが強いモデル(Grok Imagine、Kling O1)を使い、動きは言語で指定
  • 前後絵指定はポーズ遷移やカメラワークには使えるが、途中の動きは制御できない
  • ローカルで回すならWan 2.1/2.2が8GB VRAMから動いてコスパが良い
  • 解説動画は従来ツールとのハイブリッドが現実的