技術 2026年2月26日(木) 約7分 1100万時間の動画で学習したFDM-1と50倍効率のビデオエンコーダ Standard Intelligenceがスクリーンビデオ1100万時間で訓練した汎用コンピュータアクション基盤モデル。LLMではなくビデオとアクショントークンを直接操作するアーキテクチャで、独自エンコーダにより既存VLMの50〜100倍の圧縮効率を実現する。 AI Computer Use Foundation Model