agent-browser: AIエージェント向けブラウザ自動化CLI
Vercel Labsが2026年1月11日に公開したagent-browserというツールを見つけた。AIエージェント向けのブラウザ自動化CLIで、Playwright MCPより軽量に使えそうだったので調べてみた。
基本情報
- リポジトリ: vercel-labs/agent-browser
- バージョン: 0.4.0(2026年1月12日時点)
- ライセンス: Apache-2.0
- 依存: playwright-core ^1.57.0
インストール
npm install -g agent-browser
agent-browser install # Chromiumをダウンロード
Linuxの場合はシステム依存関係も必要。
agent-browser install --with-deps
アーキテクチャ
Rust製CLIとNode.jsデーモンの2層構造。
Rust CLI(コマンド解析)
↓
Node.js Daemon(Playwright管理)
↓
Chromium(実際のブラウザ操作)
Rustバイナリがない環境では純粋Node.jsにフォールバックする。デーモンは初回コマンドで自動起動し、以降の操作が高速になる。
基本的な使い方
# ページを開く
agent-browser open example.com
# アクセシビリティツリーを取得(AI向けの核心機能)
agent-browser snapshot
# 要素をクリック(refで指定)
agent-browser click @e2
# フォームに入力
agent-browser fill @e3 "test@example.com"
# スクリーンショット
agent-browser screenshot page.png
# ブラウザを閉じる
agent-browser close
核心機能: snapshot + ref
agent-browserの最大の特徴はsnapshotコマンド。ページのアクセシビリティツリーを取得し、各要素にref(参照ID)を付与する。
$ agent-browser snapshot -i
- heading "Example Domain" [ref=e1] [level=1]
- button "Submit" [ref=e2]
- textbox "Email" [ref=e3]
- link "Learn more" [ref=e4]
-iオプションでインタラクティブ要素(ボタン、リンク、入力欄など)のみに絞れる。
このrefを使えば、CSSセレクタやXPathより安定した要素選択が可能。DOM構造が変わってもアクセシビリティツリーは比較的安定しているため、AIエージェントとの相性が良い。
snapshotオプション
| オプション | 説明 |
|---|---|
-i, --interactive | インタラクティブ要素のみ |
-c, --compact | 空の構造要素を除去 |
-d, --depth <n> | ツリーの深さを制限 |
-s, --selector <sel> | 特定セレクタにスコープ |
Claude Codeでの活用
Claude Codeのスキル機能と組み合わせると、/browse https://example.com のようなコマンドでブラウザ操作ができる。
.claude/skills/browse/SKILL.md の例:
---
permissionMode: bypassPermissions
tools: Bash
model: claude-haiku-4-5-20251001
---
# agent-browser でページ取得
## 引数: $ARGUMENTS
形式: `URL [質問]`
## 実行手順
agent-browser open "【URL】"
agent-browser snapshot -i -c
agent-browser close
snapshot結果を元に質問に回答する。
フォーム入力が必要な場合は、snapshotで取得したrefを使う。
agent-browser snapshot -i --json # ref付きで要素一覧を取得
agent-browser fill @e3 "value" # refで入力欄を指定
agent-browser click @e5 # refで送信ボタンをクリック
現状の注意点
公開直後のため、いくつか問題がある。
sessionコマンドが動かない(Issue #2)
複数の独立したブラウザインスタンスを管理するsessionコマンドが未実装エラーになる。現時点では毎回closeして新規にopenする運用が安全。
公式スキル定義がない(Issue #1)
Claude CodeやOpenCode向けの公式SKILL.mdはまだ用意されていない。自分で書く必要がある。
Playwright MCPとの比較
| 項目 | agent-browser | Playwright MCP |
|---|---|---|
| 設定 | npmインストールのみ | MCP設定が必要 |
| 起動 | CLI直接実行 | MCPプロトコル経由 |
| 出力 | テキスト/JSON | MCP形式 |
| AI連携 | snapshot + ref | スナップショット |
| 成熟度 | 公開直後 | 安定版 |
agent-browserはMCP設定なしで動くのが利点。一方、IDEとの統合はPlaywright MCPのほうが進んでいる。
まとめ
agent-browserはAIエージェント向けに設計されたブラウザ自動化CLIで、snapshot + refによる要素選択が特徴。公開直後でまだ荒削りな部分はあるが、Vercel Labsが開発しているので今後の発展に期待できる。
Playwright MCPの設定が面倒な場合や、シンプルにCLIからブラウザを操作したい場合に選択肢になりそう。