技術 約3分で読めます

LingBot-World:Ant Groupがオープンソース化したリアルタイムワールドモデル

2026年1月29日、Ant Group(アリペイの親会社)傘下の具身知能企業Robbyant(蚂蚁灵波科技)がLingBot-Worldをオープンソース公開した。Wan 2.2をベースにした「ワールドモデル」で、1枚の画像からリアルタイムでインタラクティブな映像を生成できる。

ワールドモデルとは

従来の動画生成AI(Sora、Kling、Wan等)は「綺麗な動画を作る」ことが目的。一方ワールドモデルは「世界をシミュレートする」ことが目的で、物理法則や因果関係を学習している。

従来の動画生成AIワールドモデル
発想綺麗な動画を作る世界をシミュレートする
物理法則見た目優先で破綻することも物理的一貫性を重視
出力完成した動画ファイルインタラクティブな映像ストリーム
主な用途コンテンツ制作AI訓練データ生成、シミュレーション

LingBot-Worldは具身知能(ロボット)、自動運転、ゲーム開発向けの「デジタルサンドボックス」として設計されている。

技術的特徴

リアルタイムインタラクション

生成スループット約16FPS、エンドツーエンドのレイテンシ1秒未満。生成中にキーボード/マウスでキャラクターやカメラを操作できる。テキスト入力で天候やスタイルの変更も可能。

先日の動画生成AIまとめ記事で「前後絵指定だとA→Bの間はAI任せのガチャ」と書いたが、ワールドモデルはリアルタイム操作で途中の動きを制御できる。

長時間の一貫性

最大約10分間の連続・安定・ロスレス映像生成が可能。マルチステージ学習と並列化アクセラレーションで実現している。従来のi2vモデルは数秒〜16秒程度が限界だったので、大幅な進化。

ゼロショット汎化

実写画像1枚やゲームのスクリーンショット1枚から、追加学習なしで映像生成できる。シーン固有のデータ収集が不要なので、新しい環境でもすぐに使える。

LingBotシリーズの全体像

LingBot-WorldはAnt GroupのLingBotシリーズ3番目のモデル。AGI戦略を「デジタル領域から物理的知覚」へ拡張する位置づけ。

モデル役割
LingBot-Depth空間認識
LingBot-VLAVision-Language-Actionモデル(ロボットの「汎用脳」)
LingBot-VA因果的ビデオ-アクションモデル(行動前に未来を予測)
LingBot-Worldワールドモデル(今回)

ロボットが現実世界で動く前に、LingBot-Worldで仮想環境を生成して訓練データを作る、という使い方が想定されている。

Apple Silicon対応状況

現時点では未対応。公式はNVIDIA GPU前提で、サンプルコマンドは8GPU構成(--nproc_per_node=8)。

ベースのWan 2.2自体はApple Siliconで動作実績がある(M2 Max 64GB、M3 Max 36GB等)。ただし:

  • GGUF形式が必要(safetensorはMPS非対応エラー)
  • ComfyUI経由でワークフロー調整が必要
  • LingBot-World独自の拡張(インタラクティブ性、長時間生成)がMPSで動くかは不明

現実的な選択肢

方法難易度備考
Wan 2.2で妥協ComfyUIでGGUF使用、M1 Max 64GBなら余裕
クラウドGPURunPod、Vast.ai等でNVIDIA GPU借りる
公式のMPS対応を待つ-ロードマップ不明

インタラクティブ機能が不要で動画生成だけしたいなら、Wan 2.2をローカルで動かす方が現実的。LingBot-Worldの真価であるリアルタイム操作を試したいならクラウドGPUを使うしかない。

公開先