技術 約4分で読めます

UI-TARS-1.5-7B: GUIグラウンディングでSOTAを達成したVision AIエージェント

ByteDanceのSeedチームが公開したUI-TARS-1.5が面白い。GUIエージェント向けのビジョン言語モデルで、スクリーンショットを見てUI要素を特定する精度がOpenAI CUAやClaude 3.7を大幅に上回っている。

7Bパラメータの軽量版でもScreenSpotProベンチマークで49.6%を達成。OpenAI CUAの23.4%、Claude 3.7の27.7%と比べて約2倍の精度。デスクトップアプリも提供されていて、ローカルで動作する。

モデルの位置付け

GUIエージェントには大きく2つのアプローチがある。

アプローチ仕組み代表例
アクセシビリティツリーDOMやOS APIから要素情報を取得Playwright MCP, agent-browser
Vision AIスクリーンショットを見て判断Skyvern, UI-TARS

UI-TARSはVision AIアプローチに特化した専用モデル。汎用VLMをGUIタスクに使うのではなく、最初からGUI操作のために設計・学習されている点が特徴。

アーキテクチャ

Qwen2.5-VLをベースに、GUIエージェントタスク向けの学習を施している。

項目
ベースモデルQwen2.5-VL
パラメータ数7B(軽量版)/ 72B(最大版)
学習手法強化学習 + 推論時スケーリング
ライセンスApache 2.0

推論時スケーリング

UI-TARS-1.5ではChain-of-Thought推論を導入。「Thought」ブロックで思考過程を出力してから「Action」を決定する。

Thought: 検索ボックスをクリックしてキーワードを入力する必要がある
Action: click(start_box='(512,128)')

この思考プロセスにより、複雑なタスクでの精度が向上している。

ベンチマーク

GUIグラウンディング(ScreenSpotPro)

画面上の特定要素を正確に指し示す能力を測定するベンチマーク。

モデルスコア
UI-TARS-1.5-7B49.6%
Claude 3.727.7%
OpenAI CUA23.4%

7Bモデルでこの差は大きい。GUIグラウンディングに特化した学習の効果が出ている。

最大モデル(UI-TARS-1.5)では**61.6%**を達成。

コンピュータ操作(OSWorld)

実際のOS上でタスクを完了する能力を測定。

モデルスコア(100ステップ)
UI-TARS-1.5(最大)42.5%
OpenAI CUA36.4%
Claude 3.728.0%
UI-TARS-1.5-7B27.5%

7Bモデルは最大モデルやOpenAI CUAには及ばないが、Claude 3.7と同等レベル。

ゲーム

Poki Gamesの14種類のブラウザゲームで100%の成功率を達成。Minecraftタスクでも平均0.42スコア(思考プロセス使用時)。

その他のベンチマーク(最大モデル)

ベンチマークスコア
Windows Agent Arena42.1%
Online-Mind2web75.8%
Android World64.2%

使い方

Pythonパッケージ

pip install ui-tars

プロンプトテンプレート

用途に応じて3種類のテンプレートが用意されている。

テンプレート用途対応アクション
COMPUTER_USEデスクトップ(Windows, Linux, macOS)click, drag, keyboard, scroll
MOBILE_USEモバイル(Android)long_press, open_app, press_home, press_back
GROUNDING要素特定のみ座標出力

コード例

from ui_tars.action_parser import parse_action_to_structure_output

response = "Thought: ボタンをクリックする\nAction: click(start_box='(100,200)')"
parsed_dict = parse_action_to_structure_output(
    response,
    factor=1000,
    origin_resized_height=1080,
    origin_resized_width=1920,
    model_type="qwen25vl"
)

座標は絶対座標で出力される。画面サイズに応じた変換処理が必要。

デスクトップアプリ

UI-TARS-desktopとして、GUIアプリケーションも提供されている。

特徴:

  • 自然言語でGUI操作を指示
  • スクリーンショット認識とビジュアルフィードバック
  • Windows、macOS、ブラウザで動作
  • ローカル実行によるプライバシー保護

1,100コミットを超える活発な開発が続いている。

注意点

  • 座標処理が必要: モデルは絶対座標を出力するため、画面サイズに応じた変換が必要
  • 7Bは複雑なタスクが苦手: OSWorldのスコアを見ると、複雑なコンピュータ操作では最大モデルとの差がある
  • Vision AIの限界: 動的に変化するUIや、スクリーンショットだけでは判断できない状態には弱い

所感

GUIグラウンディングに特化したモデルとして、明確な強みがある。汎用VLMをGUIタスクに使うよりも、専用モデルを使う方が精度が出るという実証。

ただ、実際のエージェントタスクでは「要素を正確に指し示す」だけでなく「何をすべきか判断する」能力も必要。OSWorldのスコアを見ると、7Bモデルでは複雑なタスクの遂行能力はまだ発展途上。

以前調べたE2Eテストツールの文脈で言えば、SkyvernのようなVision AIアプローチのツールがUI-TARSを組み込むと面白いかもしれない。アクセシビリティツリーが使えない場面でのフォールバックとして、GUIグラウンディング精度の高いモデルは価値がある。

参考