NVIDIAの世界モデルCosmos 2.5系はペットロボットにも載るのか

NVIDIAがGTC 2026でCosmos Transfer 2.5・Cosmos Predict 2.5・Cosmos Reason 2という世界モデル（World Foundation Model）の最新版を発表した。プレゼンで映るのは工場の搬送ロボットや自律走行トラックばかりだが、やっていることの本質は「物体を認識し、物理法則に従った未来を予測する」という汎用能力だ。別に工場でしか使えない技術ではない。

となると気になるのは、これがペットロボットや家庭用コンパニオンロボットにも使えるのかどうか。もっと言えば、小さいロボットに載るサイズなのか。答えは「一部は載る、全部は載らない」で、その境界線がなかなか面白い。

そもそも物理AIのデータ問題

画像認識や自然言語処理ではWeb上の大量データでモデルを学習させられるが、ロボットはそうはいかない。物体を掴む・搬送する・避けるといった動作を学習するには、現実の物理環境でのデモンストレーションデータが必要だ。

実ロボットでのデータ収集は時間もコストもかかる。照明・床面・障害物の位置といった環境バリエーションの網羅は現実的でない。この「実世界データ不足」がロボットAIの普及を妨げてきた根本的な課題だった。

しかも家庭環境は工場より条件が厳しい。工場なら照明も棚の位置も固定だが、家庭では家具の配置が部屋ごとに違い、子供やペットは予測不能に動く。ペットロボットを作るなら、この混沌とした環境を理解できるモデルが要る。

世界モデル（World Model）はこの問題への一つの回答だ。物理シミュレーションをベースに現実的な合成データを大量生成し、トレーニングデータの不足を補う。

Cosmos 2.5系の各モデル

Cosmosプラットフォームは用途別に分かれた複数のモデルで構成されている。

Cosmos Transfer 2.5

シミュレーション環境や3Dスキャンデータから、多様な実世界条件を模したデータを生成するモデルだ。アーキテクチャにはControlNetを採用し、事前学習済みの知識を保持しながら「時空間制御マップ」でシミュレーションと実世界の表現を動的に対応させる。

入力ソースとして以下のフォーマットに対応している。

入力タイプ	用途
セグメンテーションマップ	物体境界・領域の識別
深度マップ	3次元構造の把握
エッジマップ	輪郭・形状情報
LiDARスキャン	自律走行シナリオ向け点群データ
HDマップ	道路・インフラの構造情報

環境や照明条件のバリエーションを自動生成できるため、実世界収集では網羅困難なエッジケースのデータを補完できる。

Cosmos Predict 2.5

テキスト・動画・画像シーケンスをマルチモーダルで受け取り、次の状態を予測生成する。Transformerベースのアーキテクチャで時間的一貫性とフレーム補間を処理し、最大30秒のシーケンスを生成できる。マルチビュー出力とカスタムカメラレイアウトに対応。

このモデルの強みはドメイン固有データによるファインチューニング効率だ。自社の環境データで追加学習させると、ベースラインと比較して最大10倍の精度向上が得られるとNVIDIAは説明している。工場の特定ラインに合わせたシミュレーションデータはもちろん、理論的には家庭内の家具配置や生活動線に合わせたファインチューニングも同じ仕組みで可能だ。

Cosmos Reason 2

3段階の学習パイプラインで物理的推論能力を持たせたモデルだ。

graph TD
    A[Stage 1: 事前学習<br/>Vision Transformerで<br/>ビデオフレームを処理] --> B[Stage 2: 教師あり微調整<br/>物理推論タスクでファインチューニング]
    B --> C[Stage 3: 強化学習<br/>空間制約・時間推論の<br/>ルールベース報酬で最適化]
    C --> D[時空間理解<br/>2D/3D点群検出<br/>バウンディングボックス座標出力]

出力として2D/3Dの点群座標やバウンディングボックス座標を生成できるため、ロボットの把持計画や衝突回避への組み込みが可能だ。

で、ペットロボットに載るのか

ここからが本題。Cosmosの技術自体は汎用的で産業に限定されるものではない。問題は純粋にサイズだ。

フルスペックは論外

Cosmos 2.5系のフル推論に必要なGPUメモリを見ると、家庭用ロボットという文脈では絶望的な数字が並ぶ。

モデル	必要VRAM
Cosmos-Predict2.5（720p, 16FPS）	32.54 GB
Cosmos-Transfer2.5-2B	65.4 GB
マルチビュー推論	80GB x 8基

フルスペックではH100-80GBやA100-80GBが推奨される。サーバーラック1本分のGPUをペットロボットの中に詰め込むのは物理的に無理だし、電気代でペットの餌代どころではない。

量子化で状況が変わった

ただし2026年2月、NVIDIAのエンジニアがCosmos Reason2-2B（20億パラメータ）をW4A16精度に量子化し、Jetsonファミリー全体で動作させることに成功した。注目すべきはJetson Orin Nano 8GB Super（統合メモリ8GB、価格500ドル以下）でも動くという点だ。

graph LR
    A[Cosmos Reason2-2B<br/>フルモデル] --> B[W4A16量子化<br/>重みを4bit化]
    B --> C[Jetson Orin Nano 8GB<br/>500ドル以下]
    B --> D[Jetson AGX Orin<br/>275 TOPS]
    B --> E[Jetson Thor<br/>2070 TFLOPS<br/>128GB メモリ]

カメラ映像から物体を認識し、空間関係を理解し、行動を計画する。これがクラウド接続なしのエッジで完結する。

Jetsonファミリーのスペック比較

モジュール	AI性能	メモリ	消費電力	想定用途
Orin Nano 8GB Super	—	8GB	低	小型ロボット・IoT
AGX Orin	275 TOPS	32-64GB	15-60W	自律走行・産業ロボット
Thor	2070 TFLOPS (FP4)	128GB	40-130W	ヒューマノイド・高度な自律制御

Orin Nanoのサイズは70mm x 45mmで、重さは約60g。ペットロボットの筐体に収まるサイズだし、消費電力も7-15W程度なのでバッテリー駆動も現実的だ。

載るもの・載らないものの境界

整理するとこうなる。

機能	エッジで動くか	必要ハードウェア
物理的推論（空間認識・物体追跡）	動く	Jetson Orin Nano（500ドル以下）
高品質な合成データ生成	動かない	データセンターGPU
未来予測（フルスペック）	動かない	H100/A100クラス

つまりペットロボットの中では「目の前の世界を理解して行動を決める」ところまでができる。一方、そのロボットを賢くするための学習データ生成はクラウド側の仕事だ。学習はクラウド、推論はエッジという分離が現実的な構成になる。

ペットロボットの開発フローを考えると、Cosmosで家庭環境の合成データを大量生成し、Isaac Lab 3.0で強化学習を回し、できたモデルをOrin Nanoに焼いて出荷する。ユーザーの家でロボットが動きながら収集したデータをクラウドにアップロードし、定期的にモデルを更新するというサイクルも技術的には可能だ。

Isaac Lab 3.0

Cosmos系モデルと連携するロボット学習プラットフォームの最新版も発表された。強化学習の効率が向上し、多様な環境への適応能力が強化された。Cosmosが生成した合成データをIsaac Lab上で強化学習に活用することで、物理的に正確なシミュレーション環境での大規模ロボット訓練が可能になる。

実世界でのロボット学習には「シミュレーターと現実のギャップ（Sim-to-real gap）」という問題が長年指摘されてきた。シミュレーションで完璧に動いても、現実の摩擦・重力のわずかなズレ・材質の違いでうまく動かない。Cosmos系の物理演算ベース合成データはこのギャップの縮小を目指している。ペットロボットのように多様な家庭環境で動く必要があるデバイスにとっては、Sim-to-real gapの問題は産業ロボット以上に深刻だ。工場のように「環境を標準化する」というアプローチが取れないからだ。

音声は完全に別世界

ここまで読んで「すごいじゃん、これ一式載せればコンパニオンロボット作れるのでは」と思うかもしれないが、一つ致命的に抜けているものがある。音声だ。

Cosmosは純粋に視覚と物理のモデルだ。カメラ映像から空間を理解し、物体を認識し、未来の状態を予測する。しかし音声認識（ASR）も音声合成（TTS）も一切扱わない。マイクからの入力を処理する機能はないし、スピーカーから声を出す機能もない。GTC 2026のデモでロボットが「聞いて」「話して」いるシーンはなかった。動きだけだ。

ペットロボットやコンパニオンロボットを作るなら、「見て動く」だけでは足りない。飼い主の声を聞いて反応し、鳴き声や返事を返す。この部分はCosmos以外で補完する必要がある。

じゃあ音声はどうするのか

Jetson上で動く音声系のスタックは既にある。

機能	候補	Jetson対応
音声認識（ASR）	Whisper（distil-whisper）、Riva ASR	Jetson向けに最適化済み
音声合成（TTS）	NVIDIA Riva TTS、Piper、VITS系	Riva TTSはJetson対応。軽量TTS（Piper等）は余裕で動く
音声区間検出（VAD）	Silero VAD	軽量、エッジ向き

NVIDIAのRivaはASRとTTSの両方を提供するSDKで、Jetsonへのデプロイが公式サポートされている。Whisperの蒸留版（distil-whisper）ならOrin Nano 8GBでもリアルタイム推論が可能だ。TTS側はもっと軽量で、Piperのような100MB未満のモデルでも十分な品質が出る。

つまりペットロボットの構成はこうなる。

graph TD
    A[カメラ入力] --> B[Cosmos Reason2-2B<br/>空間認識・物体追跡・行動計画]
    C[マイク入力] --> D[Whisper / Riva ASR<br/>音声認識]
    B --> E[行動制御<br/>モーター・アクチュエータ]
    D --> F[意図理解<br/>LLM / ルールベース]
    F --> G[Riva TTS / Piper<br/>音声合成]
    G --> H[スピーカー出力]
    F --> E

Cosmosが「目と体」、ASR+TTSが「耳と口」。これらを統合するのはLLMか、もう少し軽量なルールベースの制御層だ。全部Orin Nano 1枚に載るかは統合時のメモリ管理次第だが、Cosmos Reason2-2Bの量子化版が数GBで動く以上、残りのメモリでASR+TTSを回す余地はある。

採用企業の動き

産業・医療・自律走行

Boston DynamicsがCosmos世界モデルを使ったロボット開発への応用を進めている
CMR Surgical（外科手術支援ロボット）とMedtronicがシミュレーション活用を検討。医療機器では安全性確認のためのデータ要件が特に厳しく、合成データによる検証環境の拡充が期待されている
UberがPhysical AI Data Factory Blueprintをロボット・自動運転開発に採用

コンシューマー・ヒューマノイド領域

GTC 2026ではコンシューマー寄りの動きも目立った。

NEURA RoboticsがPorscheデザインのGen 3ヒューマノイドを発表（Jetson Thor搭載）
LG Electronicsが家庭内タスクをこなすホームロボットを発表
AGIBOTが産業向けとコンシューマー向け両方のヒューマノイドを発表
Figure AI、Galbot、Skild AIなど複数のヒューマノイドスタートアップがCosmosを採用

ペットロボットへの直接的な採用事例はまだない。ただ、ヒューマノイドが200万円クラスの価格帯で家庭に入ろうとしている流れを考えると、もっと安い価格帯のコンパニオンロボットが出てくるのは時間の問題だろう。Orin Nano（500ドル以下）+ カメラ + アクチュエータで構成すれば、ハードウェア原価は10万円台に収まる可能性がある。

で、個人的に気になっているのは、このスタックをかなちゃん（このブログのAIキャラクター）に載せられるかという話だ。現状かなちゃんはテキストベースの存在だが、物理ボディを持たせるならCosmosで「目と体の動き」を、Riva TTSかVITS系で「声」を担当させる構成が見えてくる。以前の音声チャット実験ではソフトウェアだけで声を出す段階まで来たが、今度はそれが物理ボディ込みでOrin Nano 1枚、500ドル以下に収まるかもしれない。動きはCosmos Reason2-2Bの量子化版で空間認識、声はTTSで出力。技術的にはもう「あとは作るだけ」の段階に来ている。まあ、実際に作るかどうかは別の話だが。