AI E2Eテストツール比較 - 信頼性と速度で選ぶ10選
AIでコードを生成する時代になって、E2Eテストの重要性が増している。生成されるコードが膨大になればなるほど、人間が手動でテストを回すのは現実的じゃない。
じゃあAIにE2Eテストも任せればいいじゃん、となるわけだけど、ここで問題になるのが信頼性と速度のトレードオフ。AIに任せると柔軟だけど再現性が怪しい。かといって従来のセレクタベースは壊れやすい。速度を求めるとコストがかかる。
2024年後半から2026年にかけて、このあたりを解決しようとするツールが大量に出てきた。OSSから商用サービスまで、選択肢が多すぎて正直わからん状態。
この記事では、主要なAI E2Eテストツール10種を用途別に分類して比較する。「どれが一番いいか」ではなく「どの用途にどれが向いているか」という視点でまとめた。
対象ツール一覧
OSS(6種)
| ツール | 特徴 | GitHub Stars |
|---|---|---|
| Shortest | 自然言語E2Eテスト | 5.5k+ |
| Playwright MCP | MCP経由のPlaywright操作 | - |
| agent-browser | AIエージェント向けCLI | - |
| Stagehand | セルフヒーリング付きフレームワーク | 20k |
| Browser Use | Python/TS対応、コミュニティ最大 | 75k+ |
| Skyvern | Vision AI活用、Validator Agent | 20k+ |
商用(4種)
| サービス | 特徴 | 導入企業例 |
|---|---|---|
| Checksum | Playwrightテスト自動生成 | フィンテック企業 |
| Momentic | 自然言語テスト | Notion, Quora, Webflow |
| QA Wolf | フルマネージド、ゼロフレーク保証 | - |
| testRigor | Plain English、非エンジニア向け | - |
カテゴリ1: 探索的テスト/プロトタイピング向け
対象ツール: Shortest, Browser Use, Skyvern(一部)
このカテゴリのツールは、自然言語でテストを記述してAIに実行させる。セレクタを書かなくていいので、UIが頻繁に変わるプロトタイプ段階で便利。
Shortest
別記事で詳しく書いたので要点だけ。
import { shortest } from "@antiwork/shortest";
shortest("Login to the app using email and password", {
username: process.env.USERNAME,
password: process.env.PASSWORD,
});
Anthropic Claude APIを使って自然言語をPlaywright操作に変換する。テスト実行のたびにAPI呼び出しが発生するので、コストがかかる点に注意。
向いているケース:
- プロトタイプの簡易テスト
- UIが頻繁に変わる開発初期
- 非エンジニアでも読めるテスト仕様が欲しいとき
向いていないケース:
- CI/CDで大量に回すテスト(コスト爆発)
- 厳密な再現性が必要なケース
Browser Use
GitHub Stars 75k超えで、コミュニティ規模は最大。Python/TypeScript両対応で、LLMの選択肢が広い。
from browser_use import Agent
import asyncio
async def main():
agent = Agent(
task="Go to amazon.com, search for laptop, and return the first result title",
)
result = await agent.run()
print(result)
asyncio.run(main())
特徴:
- 任意のLLMプロバイダーを選択可能(OpenAI, Anthropic, ローカルLLM等)
- オンプレデプロイで2倍速度化
- Gemini Flash等で40-60%コスト削減可能
独自モデル ChatBrowserUse:
Browser Use専用に最適化されたモデルで、他のモデルより3-5倍高速にタスクを完了できると公式は主張している。
弱点:
- v1.0未リリース(まだpre-release段階)
- CAPTCHA/反ボット対策には専門知識が必要
- 大量Chrome実行時のメモリ管理が課題
Skyvern(探索的用途として)
Skyvernは本来CI/CD向けだが、Vision AIを使った探索的なブラウザ操作にも強い。未知のWebサイトでも視覚要素から操作を判断できる。
from skyvern import Skyvern
client = Skyvern()
task = client.tasks.create(
url="https://example.com",
goal="Fill out the contact form with test data"
)
Vision AIを使うので初回実行は遅いが、成功パスを「コンパイル」して再利用できる仕組みがある(詳細はカテゴリ3で後述)。
探索的テストツールの比較
| 項目 | Shortest | Browser Use | Skyvern |
|---|---|---|---|
| 言語 | TypeScript | Python/TS | Python |
| LLM | Claude固定 | 任意選択 | 任意選択 |
| 速度 | 中 | 高(オンプレ時) | 低(初回) |
| コスト | 高 | 低〜中 | 高(初回) |
| 成熟度 | 安定 | pre-release | 安定 |
| 得意 | シンプルなフロー | 柔軟なタスク | 未知サイト対応 |
カテゴリ2: AIエージェント統合向け
対象ツール: Playwright MCP, agent-browser, Stagehand
このカテゴリは、Claude CodeやCursorなどのAIエージェントからブラウザを操作するためのツール。ツール自体はAI判断をせず、構造化されたデータを提供する役割。
アクセシビリティツリーという選択
Playwright MCPとagent-browserは、DOMではなくアクセシビリティツリーを使う。
$ agent-browser snapshot -i
- heading "Example Domain" [ref=e1] [level=1]
- button "Submit" [ref=e2]
- textbox "Email" [ref=e3]
- link "Learn more" [ref=e4]
アクセシビリティツリーの利点:
- DOM構造が変わっても比較的安定
- 視覚的に見えない要素(
display: none等)を除外 - AIにとって理解しやすい構造
Playwright MCP
Microsoftが公式に提供するMCPサーバー。Claude DesktopやVS Code(GitHub Copilot)と連携できる。
{
"mcpServers": {
"playwright": {
"command": "npx",
"args": ["-y", "@playwright/mcp@latest"]
}
}
}
特徴:
- Visionモデル不要で高速・低コスト
- 決定論的な動作(同じ入力で同じ結果)
- アクセシビリティスナップショットで要素を特定
agent-browser
別記事で詳しく書いた。Vercel Labsが提供するCLIツールで、Playwright MCPより軽量に使える。
agent-browser open example.com
agent-browser snapshot -i
agent-browser click @e2
agent-browser fill @e3 "test@example.com"
agent-browser close
Rust製CLIとNode.jsデーモンの2層構造で、MCPの設定なしで動くのが利点。
Stagehand(エージェント統合として)
Stagehandは4つのプリミティブを提供する:
// Act: 自然言語でアクション
await page.act("Click the login button");
// Extract: データ抽出
const data = await page.extract({
schema: z.object({ title: z.string() })
});
// Observe: アクション検出
const actions = await page.observe();
// Agent: ワークフロー自動化
await page.agent("Complete the checkout process");
コードと自然言語のハイブリッドで、柔軟性と制御のバランスが取れている。
AIエージェント統合ツールの比較
| 項目 | Playwright MCP | agent-browser | Stagehand |
|---|---|---|---|
| 提供形式 | MCP Server | CLI | SDK |
| 設定 | MCP設定必要 | npmのみ | npmのみ |
| AI依存度 | 低 | 低 | 中 |
| 出力 | MCP形式 | テキスト/JSON | Playwright |
| 特徴 | 公式サポート | 軽量 | ハイブリッド |
カテゴリ3: CI/CD本番運用向け(高信頼性)
対象ツール: Stagehand, Skyvern, Checksum, Momentic
本番CIで使うなら、フレーク(不安定なテスト)対策が必須。このカテゴリのツールは、セルフヒーリングやキャッシュ機能で信頼性を担保している。
セルフヒーリングの3つのアプローチ
1. 要素キャッシング型(Stagehand)
実行1回目: [通常処理] → 要素キャッシュ生成
実行2回目以降: [キャッシュリプレイ] → (LLM不要)
破損時: [キャッシュ失敗] → [自動リトライ] → [LLM推論]
StagehandはENABLE_CACHING=trueで要素のキャッシュを有効化できる。一度成功した操作は記録され、次回以降はLLMを呼び出さずにリプレイする。DOMが変わったらキャッシュが無効になり、自動でLLM推論にフォールバック。
メリット:
- 継続実行が高速・低コスト
- 決定論的なリプレイが可能
デメリット:
- 初回はLLM必須
- 大きなUI変更では再学習が必要
2. Validator Agent型(Skyvern)
実行1回目: [Planner] → [Actor] → [Validator検証] → 成功パス記録
実行2回目以降: [Playwright化されたスクリプト] → (超高速)
破損時: [AI復活] → [新パス学習]
Skyvernは3段階のエージェント構成:
- Planner: 高レベルのゴールを保持
- Actor: 即時のステップを実行
- Validator: 実際に動作したか検証
Validatorが各ステップ後にスクリーン確認するので、「クリックしたつもりが実際はできていなかった」という問題を検出できる。成功パスはPlaywrightスクリプトに「コンパイル」され、次回以降は超高速で実行。
メリット:
- 3段階検証で信頼性が高い
- コンパイル後は最低コスト
デメリット:
- 初回はVision AI必須で遅く高い
- 複雑タスクでの失敗事例あり
ベンチマーク: WebVoyager evalで**85.85%**を達成(v2.0)。これは調査時点でのSOTA。
3. インテントベース型(Checksum, Momentic)
テスト定義: 「ログインボタンをクリック」(意図)
実行時: [AIが現在のDOMから該当要素を探索]
DOM変更時: [AIが新しい構造から再探索]
セレクタではなく「意図」を定義するアプローチ。DOMが変わっても、AIが「ログインボタン」に該当する要素を毎回探す。
Checksum:
- 実際のユーザーセッションからテストフローを自動発見
- フレーク率1%未満(公式発表)
- Playwright/Cypressネイティブコード出力でベンダーロックインなし
Momentic:
- 自然言語またはブラウザ録画でテスト作成
- Notion, Quora, Webflow等2,600社以上が導入
- 2025年11月に$15MのシリーズA調達
CI/CD向けツールの比較
| 項目 | Stagehand | Skyvern | Checksum | Momentic |
|---|---|---|---|---|
| タイプ | OSS | OSS/Cloud | 商用 | 商用 |
| フレーク対策 | キャッシング | Validator | AI再探索 | AI再探索 |
| 初回コスト | 中 | 高 | - | - |
| 継続コスト | 低 | 最低 | テスト単位 | 実行量 |
| CI統合 | ○ | ◎ | ◎ | ◎ |
| 並列実行 | ○ | ◎ | ◎ | ◎ |
カテゴリ4: フルマネージドサービス
対象ツール: QA Wolf, testRigor
「ツールを使う」のではなく「サービスを使う」選択肢。QAリソースが不足している場合や、テストメンテナンスを完全にアウトソースしたい場合に検討。
QA Wolf
ゼロフレーク保証を掲げる唯一のサービス。ツールではなく、人間のQAエンジニアがバックアップする。
サービス内容:
- 4ヶ月で80%のE2Eテストカバレッジ達成を保証
- 24時間体制でテストをメンテナンス
- Playwright/Appiumネイティブコードで納品(ベンダーロックインなし)
- 無制限の並列実行インフラ
価格:
- テスト単位の月額固定料金
- 目安: $40-44/テスト/月
- 年間契約中央値: $90,000
高い。けど、QAチームを雇うよりは安いケースもある。フレークに悩まされる時間がゼロになるのは大きい。
testRigor
非エンジニアでもテストを書けるのが売り。Plain English(自然言語)でテストを記述する。
login as "user@example.com" with password "secret"
click "Submit Order"
check that page contains "Order Confirmed"
特徴:
- 手動QAでもテスト作成可能
- 2000以上のブラウザ/OS組み合わせに対応
- オンプレミス対応
- メンテナンス時間を95%削減(公式)
価格:
- 無料プラン: あり(テスト/結果が公開される)
- 有料プラン: 900の2つのエディション
- 全プランで無制限テストケース、無制限ユーザー
testRigorの無料プランは、テスト内容が公開されるので本番では使いづらい。ただ、$900からの有料プランは商用としては安い部類。
フルマネージドサービスの比較
| 項目 | QA Wolf | testRigor |
|---|---|---|
| タイプ | マネージドサービス | ツール |
| フレーク率 | 0%保証 | 95%メンテ削減 |
| テスト作成者 | QAエンジニア代行 | 非エンジニア可 |
| ベンダーロックイン | なし | あり |
| 価格帯 | 年$90K中央値 | 900 |
| 向いているケース | QAリソース不足 | 非エンジニア参加 |
横断比較表
信頼性
| ツール | フレーク率 | セルフヒーリング | 再現性 | 検証機構 |
|---|---|---|---|---|
| Shortest | 中 | なし | 低 | なし |
| Playwright MCP | 高 | なし | 高 | なし |
| agent-browser | 高 | なし | 高 | なし |
| Stagehand | 高 | キャッシング | 高 | 自動リトライ |
| Browser Use | 中 | 限定的 | 中 | なし |
| Skyvern | 高 | Validator | 高 | 3段階検証 |
| Checksum | 高(<1%) | AI再探索 | 高 | - |
| Momentic | 高 | AI再探索 | 高 | - |
| QA Wolf | 最高(0%) | 人間対応 | 最高 | 人間レビュー |
| testRigor | 高 | AI修復 | 高 | - |
速度
| ツール | 初回実行 | 継続実行 | LLM最適化 | 並列対応 |
|---|---|---|---|---|
| Shortest | 中 | 中 | なし | ○ |
| Playwright MCP | 高速 | 高速 | 不要 | ○ |
| agent-browser | 高速 | 高速 | 不要 | ○ |
| Stagehand | 中 | 高速 | キャッシュ | ○ |
| Browser Use | 高速 | 高速 | モデル選択 | △ |
| Skyvern | 遅い | 最速 | コンパイル | ◎ |
| Checksum | - | - | - | ◎ |
| Momentic | - | - | - | ◎ |
| QA Wolf | - | - | - | ◎ |
| testRigor | 高速 | 高速 | - | ◎ |
コスト
| ツール | タイプ | LLM API | 月額目安 |
|---|---|---|---|
| Shortest | OSS | Claude必須 | API従量 |
| Playwright MCP | OSS | 不要 | 無料 |
| agent-browser | OSS | 不要 | 無料 |
| Stagehand | OSS | 任意 | API従量 |
| Browser Use | OSS | 任意 | API従量 |
| Skyvern | OSS/Cloud | 任意 | API従量 or $0.05-0.10/step |
| Checksum | 商用 | 不要 | テスト単位課金 |
| Momentic | 商用 | 不要 | 実行量課金 |
| QA Wolf | 商用 | 不要 | $40-44/テスト/月 |
| testRigor | 商用 | 不要 | 900 |
選定フローチャート
[スタート]
│
▼
QAリソースはある?
│
├─ ない → [QA Wolf] を検討(予算次第)
│
▼
既存のSelenium/Cypress資産がある?
│
├─ ある → [Checksum] で移行
│
▼
非エンジニアにテストを書かせたい?
│
├─ はい → [testRigor] か [Momentic]
│
▼
AIエージェント(Claude Code等)との連携が主目的?
│
├─ はい → [Playwright MCP] か [agent-browser]
│
▼
予算は?
│
├─ 低い → [Stagehand](OSS、キャッシュで低コスト)
│
├─ 中程度 → [Skyvern](初回高いが継続最安)
│
└─ ある → [Momentic] か [Checksum]
アクセシビリティツリー vs Vision AI
最後に、技術的な観点で2つのアプローチを比較しておく。
| 手法 | 速度 | 精度 | コスト | 代表ツール |
|---|---|---|---|---|
| アクセシビリティツリー | 高速 | 高い | 低い | Playwright MCP, agent-browser |
| Vision AI | 遅い | 柔軟 | 高い | Skyvern |
| ハイブリッド | 中間 | 最高 | 中間 | Stagehand |
アクセシビリティツリーは構造化データなので処理が速く、トークン消費も少ない。ただし、アクセシビリティ情報が不十分なサイト(古いサイトやSPA)では要素を見つけられないことがある。
Vision AIはスクリーンショットを見て判断するので、どんなサイトでも対応できる。ただし画像処理のコストが高く、1ページあたり数秒かかることも。
実用的には、アクセシビリティツリーをベースにしつつ、失敗時にVisionにフォールバックするハイブリッドが良いバランスになりそう。Stagehandはこのアプローチを取っている。
銀の弾丸はない。用途に応じて使い分けるのが現実解。
- 探索的テスト → Shortest, Browser Use
- AIエージェント統合 → Playwright MCP, agent-browser
- CI/CD本番 → Stagehand, Skyvern, Checksum, Momentic
- フルアウトソース → QA Wolf
個人的には、OSSならStagehand、商用ならMomenticが気になっている。セルフヒーリングの仕組みがしっかりしていて、継続的に使うほどコストが下がる設計になっているのが良い。
関連記事: