Foundation Model の記事 | lilting channel

技術2026年2月26日(木)約7分

1100万時間の動画で学習したFDM-1と50倍効率のビデオエンコーダ

Standard Intelligenceがスクリーンビデオ1100万時間で訓練した汎用コンピュータアクション基盤モデル。LLMではなくビデオとアクショントークンを直接操作するアーキテクチャで、独自エンコーダにより既存VLMの50〜100倍の圧縮効率を実現する。