1100万時間の動画で学習したFDM-1と50倍効率のビデオエンコーダ

Standard Intelligenceが公開したFDM-1は、インターネット上のスクリーン録画データ1100万時間分を使って訓練した汎用コンピュータアクション基盤モデルだ。Webサービス操作・CADモデリング・自動運転・UIファジングを毎秒30フレームでこなす動画をデモとして公開している。

FDM-1はLLMではないが、AIではある。ビデオエンコーダもアクション予測モデルも深層学習のニューラルネットワークで、11,000,000時間の映像データから操作パターンを学習している。ただしLLMのようなChain-of-thought推論やツール使用はなく、映像とアクションだけで完結する。この記事で「トークン」と書いているのはBPEによる言語トークンではなく、ビデオエンコーダが映像を圧縮した特徴量と、マウス移動やキー入力を離散化したアクション表現のことを指す。

Standard Intelligenceについて

Standard Intelligence（@si_pbc）はサンフランシスコ拠点のPublic Benefit Corporationで、チームは4名（Neel Redkar、Yudhister Kumar、Devansh Pandey、Galen Mead）。過去にHertz-Devをオープンソースリリースしている。Hertz-Devは8.5Bパラメータのフルデュプレックス会話オーディオモデルで、理論レイテンシ80ms / 実測120msをRTX 4090単体で実現した。

ビデオエンコーダの圧縮効率

FDM-1の核心にあるのはビデオ圧縮の効率だ。2時間の30fps高解像度動画を1Mトークンに圧縮できる。計算すると2時間 x 30fps = 216,000フレームで1Mトークンなので、フレームあたり約4〜5トークンに相当する。既存VLMはフレームあたり数百〜数千トークンを消費するため、50〜100倍の効率差がある。

200kトークンのコンテキストで処理できるフレーム数を比較すると:

Gemini: 約775フレーム
ChatGPT Computer Use: 約240フレーム
Claude: 約162フレーム
FDM-1: 1時間40分分のフレーム（最大コンテキスト使用時）

Gemini比でも数百倍の差があり、長時間にわたるUI操作のコンテキストを保持できる点が他のアプローチと根本的に異なる。

この圧縮がテキストを高忠実度で読めるレベルを維持している点も重要だ。コンピュータ操作では画面上のテキストが主要な情報源であり、圧縮でテキストが潰れたら使い物にならない。エンコーダの具体的なアーキテクチャ（ViT系なのかCNN系なのか等）は非公開。

学習パイプライン

訓練は3段階のパイプラインで構成されている。

第1段階: IDM訓練

逆動力学モデル（IDM: Inverse Dynamics Model）を4万時間の契約者ラベル付きスクリーン録画で訓練する。IDMは「画面がAからBに変わった。その間にユーザーは何をした？」を推定するモデルで、前後2フレームの差分からマウス移動やキー入力を逆算する。

第2段階: 自動ラベリング

訓練済みIDMを使い、残りの1100万時間の動画に自動でアクションラベルを付与する。ここで重要なのはラベリングの計算配分で、高確率で確定できるアクション（明らかなクリックなど）を先に処理し、曖昧なアクションにはより多くの計算を割り当てる。

コンピュータ操作分野で最大規模とされる既存データセットは20時間未満だったのに対し、FDM-1は11,000,000時間で三桁以上の差がある。

第3段階: FDM訓練

ラベル付き動画データを使い、順動力学モデル（FDM: Forward Dynamics Model）を訓練する。IDMが「何をした？」を逆算するモデルだったのに対し、FDMは「今の画面と操作履歴から、次に何をすべきか」を予測するモデルだ。製品名のFDM-1はここから来ている。

マスク拡散モデル

通常のLLMは「前から順に次の1個を予測する」を繰り返して文を生成する（オートリグレッシブ次トークン予測）。FDM-1はこの方式ではなく、マスク拡散という手法を使っている。全部マスクした状態から始めて、確信度の高い部分から徐々にアンマスクしていく方式で、テキスト生成の分野ではMDLM（Masked Diffusion Language Model）として知られるアプローチだ。FDM-1はこれをアクション予測に応用している。

推論時の動作:

入力フレームをマスクトークンとインターリーブして入力する
モデルが各マスク位置の対数確率を予測する
top-kの最高信頼度予測を選択してアンマスクする
まだマスクが残っていれば反復する

この方式の利点は、推論時の計算量を動的に配分できることだ。簡単なアクション（カーソルの直線移動など）は少ない反復で確定し、曖昧なアクション（複数の操作候補がありえる場面）には多くの反復を割り当てられる。「必要なところにリソースを集中する」点ではMoEと思想が近いが、MoEが「どの専門家ネットワークに聞くか」を変えるのに対し、マスク拡散は同じモデルに「どれだけ考えさせるか」を変える。16段階のノイズスケジュールで推論し、非因果的にシーケンスの全フレームを同時参照して行動を予測する。

アクショントークン化

マウス移動の表現に指数ビニングを採用している。移動量が小さい領域を細かく、大きな移動は粗くビン分けする49段階のエンコーディングで、オーディオ圧縮のmu-law圧縮と同じ発想の非線形量子化だ。ピクセル単位の精密操作と画面端への大きな移動を両立する。キー入力とスクロールは個別トークンとして扱う。

評価インフラ

Standard Intelligenceは80,000台のフォーク仮想マシンで毎時100万回以上のロールアウトを実行できる評価システムを構築している。モデルの推論レイテンシはスクリーンキャプチャからアクション決定まで11ミリ秒で、単一のH100（NVIDIAのAI向けGPU）で42台のVMを同時制御できる。このスケールは強化学習ループを高速に回すためのインフラとして設計されている。

応用デモ

CAD操作

3DモデリングソフトのBlenderを操作して歯車を作るデモを公開している。VMのスナップショットを保存しておき、操作に失敗したら巻き戻してやり直す仕組みで精度を上げている。

自動運転

実車をWebインターフェース経由で制御するデモで、サンフランシスコ市街のブロック周回走行を実現した。ファインチューニングデータは1時間未満で、ベースモデルからの精度向上は50%と報告されている。

UIファジング

ファジング（fuzzing）は本来、プログラムに異常なデータを大量に投げ込んでバグを見つける手法だ。UIファジングはその画面操作版で、人間が普通やらないような操作パターンを試して不具合を洗い出す。

銀行アプリのデモでは、送金完了直後にまだ送信ボタンが押せる状態が残っていて、連打すると残高がマイナスになるバグを検出している。人間のテスターは「送金したら終わり」と思って次に進むが、FDM-1は画面の状態を見て押せるボタンがあれば押しにいく。連続ビデオでコンテキストを保持できるため、操作の深い連鎖を辿るのが得意で、こういったエッジケースの発見に向いている。

ベンチマークと公開状況

OSWorld等の公式ベンチマークスコアは未公表。スクリーンショットベースの既存Computer Useとはアーキテクチャが根本的に違うので、同じベンチマークで比較すること自体にあまり意味がない。

API、料金、モデルウェイトのリリースに関する情報はなく、現時点ではデモとアナウンスの段階にとどまっている。

OpenAI VPTとの比較

Minecraftのゲームプレイ動画で訓練したOpenAIのVideo PreTraining（VPT）が2022年に示したアプローチと方向性は同じだが、スコープが大きく異なる。VPTはゲーム環境に特化して最大6秒のコンテキストだったのに対し、FDM-1は汎用デスクトップ操作を対象に数分から数時間のコンテキストをサポートする。訓練データもゲームに限定されず、CAD・金融・一般Webブラウジングを含む。

ゲームへの応用を考えると、FDM-1が得意なのは「画面の状態を見て次の操作を選ぶ」タイプのゲームだ。ウマ娘や学園アイドルマスターのようなコマンド選択式で周回が必要なゲームとは相性がいい。映像だけ見て操作するので、メモリ読み取りやAPI hookで動く従来のBotと違いアンチチートで検出しづらいという問題もある。一方で、フレーム単位の正確なタイミングが求められる音ゲーや、相手の行動に即応する格ゲーは映像ベースの学習スタイルでは厳しい。