LingBot-World：Ant Groupがオープンソース化したリアルタイムワールドモデル

2026年1月29日、Ant Group（アリペイの親会社）傘下の具身知能企業Robbyant（蚂蚁灵波科技）がLingBot-Worldをオープンソース公開した。Wan 2.2をベースにした「ワールドモデル」で、1枚の画像からリアルタイムでインタラクティブな映像を生成できる。

ワールドモデルとは

従来の動画生成AI（Sora、Kling、Wan等）は「綺麗な動画を作る」ことが目的。一方ワールドモデルは「世界をシミュレートする」ことが目的で、物理法則や因果関係を学習している。

LingBot-Worldは具身知能（ロボット）、自動運転、ゲーム開発向けの「デジタルサンドボックス」として設計されている。

生成スループット約16FPS、エンドツーエンドのレイテンシ1秒未満。生成中にキーボード/マウスでキャラクターやカメラを操作できる。テキスト入力で天候やスタイルの変更も可能。

先日の動画生成AIまとめ記事で「前後絵指定だとA→Bの間はAI任せのガチャ」と書いたが、ワールドモデルはリアルタイム操作で途中の動きを制御できる。

最大約10分間の連続・安定・ロスレス映像生成が可能。マルチステージ学習と並列化アクセラレーションで実現している。従来のi2vモデルは数秒〜16秒程度が限界だったので、大幅な進化。

実写画像1枚やゲームのスクリーンショット1枚から、追加学習なしで映像生成できる。シーン固有のデータ収集が不要なので、新しい環境でもすぐに使える。

LingBot-WorldはAnt GroupのLingBotシリーズ3番目のモデル。AGI戦略を「デジタル領域から物理的知覚」へ拡張する位置づけ。

モデル	役割
LingBot-Depth	空間認識
LingBot-VLA	Vision-Language-Actionモデル（ロボットの「汎用脳」）
LingBot-VA	因果的ビデオ-アクションモデル（行動前に未来を予測）
LingBot-World	ワールドモデル（今回）

ロボットが現実世界で動く前に、LingBot-Worldで仮想環境を生成して訓練データを作る、という使い方が想定されている。

現時点では未対応。公式はNVIDIA GPU前提で、サンプルコマンドは8GPU構成（--nproc_per_node=8）。

ベースのWan 2.2自体はApple Siliconで動作実績がある（M2 Max 64GB、M3 Max 36GB等）。ただし：

方法	難易度	備考
Wan 2.2で妥協	低	ComfyUIでGGUF使用、M1 Max 64GBなら余裕
クラウドGPU	低	RunPod、Vast.ai等でNVIDIA GPU借りる
公式のMPS対応を待つ	-	ロードマップ不明

インタラクティブ機能が不要で動画生成だけしたいなら、Wan 2.2をローカルで動かす方が現実的。LingBot-Worldの真価であるリアルタイム操作を試したいならクラウドGPUを使うしかない。