技術 約11分で読めます

AI E2Eテストツール比較 - 信頼性と速度で選ぶ10選

AIでコードを生成する時代になって、E2Eテストの重要性が増している。生成されるコードが膨大になればなるほど、人間が手動でテストを回すのは現実的じゃない。

じゃあAIにE2Eテストも任せればいいじゃん、となるわけだけど、ここで問題になるのが信頼性速度のトレードオフ。AIに任せると柔軟だけど再現性が怪しい。かといって従来のセレクタベースは壊れやすい。速度を求めるとコストがかかる。

2024年後半から2026年にかけて、このあたりを解決しようとするツールが大量に出てきた。OSSから商用サービスまで、選択肢が多すぎて正直わからん状態。

この記事では、主要なAI E2Eテストツール10種を用途別に分類して比較する。「どれが一番いいか」ではなく「どの用途にどれが向いているか」という視点でまとめた。

対象ツール一覧

OSS(6種)

ツール特徴GitHub Stars
Shortest自然言語E2Eテスト5.5k+
Playwright MCPMCP経由のPlaywright操作-
agent-browserAIエージェント向けCLI-
Stagehandセルフヒーリング付きフレームワーク20k
Browser UsePython/TS対応、コミュニティ最大75k+
SkyvernVision AI活用、Validator Agent20k+

商用(4種)

サービス特徴導入企業例
ChecksumPlaywrightテスト自動生成フィンテック企業
Momentic自然言語テストNotion, Quora, Webflow
QA Wolfフルマネージド、ゼロフレーク保証-
testRigorPlain English、非エンジニア向け-

カテゴリ1: 探索的テスト/プロトタイピング向け

対象ツール: Shortest, Browser Use, Skyvern(一部)

このカテゴリのツールは、自然言語でテストを記述してAIに実行させる。セレクタを書かなくていいので、UIが頻繁に変わるプロトタイプ段階で便利。

Shortest

別記事で詳しく書いたので要点だけ。

import { shortest } from "@antiwork/shortest";

shortest("Login to the app using email and password", {
  username: process.env.USERNAME,
  password: process.env.PASSWORD,
});

Anthropic Claude APIを使って自然言語をPlaywright操作に変換する。テスト実行のたびにAPI呼び出しが発生するので、コストがかかる点に注意。

向いているケース:

  • プロトタイプの簡易テスト
  • UIが頻繁に変わる開発初期
  • 非エンジニアでも読めるテスト仕様が欲しいとき

向いていないケース:

  • CI/CDで大量に回すテスト(コスト爆発)
  • 厳密な再現性が必要なケース

Browser Use

GitHub Stars 75k超えで、コミュニティ規模は最大。Python/TypeScript両対応で、LLMの選択肢が広い。

from browser_use import Agent
import asyncio

async def main():
    agent = Agent(
        task="Go to amazon.com, search for laptop, and return the first result title",
    )
    result = await agent.run()
    print(result)

asyncio.run(main())

特徴:

  • 任意のLLMプロバイダーを選択可能(OpenAI, Anthropic, ローカルLLM等)
  • オンプレデプロイで2倍速度化
  • Gemini Flash等で40-60%コスト削減可能

独自モデル ChatBrowserUse:

Browser Use専用に最適化されたモデルで、他のモデルより3-5倍高速にタスクを完了できると公式は主張している。

弱点:

  • v1.0未リリース(まだpre-release段階)
  • CAPTCHA/反ボット対策には専門知識が必要
  • 大量Chrome実行時のメモリ管理が課題

Skyvern(探索的用途として)

Skyvernは本来CI/CD向けだが、Vision AIを使った探索的なブラウザ操作にも強い。未知のWebサイトでも視覚要素から操作を判断できる。

from skyvern import Skyvern

client = Skyvern()
task = client.tasks.create(
    url="https://example.com",
    goal="Fill out the contact form with test data"
)

Vision AIを使うので初回実行は遅いが、成功パスを「コンパイル」して再利用できる仕組みがある(詳細はカテゴリ3で後述)。

探索的テストツールの比較

項目ShortestBrowser UseSkyvern
言語TypeScriptPython/TSPython
LLMClaude固定任意選択任意選択
速度高(オンプレ時)低(初回)
コスト低〜中高(初回)
成熟度安定pre-release安定
得意シンプルなフロー柔軟なタスク未知サイト対応

カテゴリ2: AIエージェント統合向け

対象ツール: Playwright MCP, agent-browser, Stagehand

このカテゴリは、Claude CodeやCursorなどのAIエージェントからブラウザを操作するためのツール。ツール自体はAI判断をせず、構造化されたデータを提供する役割。

アクセシビリティツリーという選択

Playwright MCPとagent-browserは、DOMではなくアクセシビリティツリーを使う。

$ agent-browser snapshot -i
- heading "Example Domain" [ref=e1] [level=1]
- button "Submit" [ref=e2]
- textbox "Email" [ref=e3]
- link "Learn more" [ref=e4]

アクセシビリティツリーの利点:

  • DOM構造が変わっても比較的安定
  • 視覚的に見えない要素(display: none等)を除外
  • AIにとって理解しやすい構造

Playwright MCP

Microsoftが公式に提供するMCPサーバー。Claude DesktopやVS Code(GitHub Copilot)と連携できる。

{
  "mcpServers": {
    "playwright": {
      "command": "npx",
      "args": ["-y", "@playwright/mcp@latest"]
    }
  }
}

特徴:

  • Visionモデル不要で高速・低コスト
  • 決定論的な動作(同じ入力で同じ結果)
  • アクセシビリティスナップショットで要素を特定

agent-browser

別記事で詳しく書いた。Vercel Labsが提供するCLIツールで、Playwright MCPより軽量に使える。

agent-browser open example.com
agent-browser snapshot -i
agent-browser click @e2
agent-browser fill @e3 "test@example.com"
agent-browser close

Rust製CLIとNode.jsデーモンの2層構造で、MCPの設定なしで動くのが利点。

Stagehand(エージェント統合として)

Stagehandは4つのプリミティブを提供する:

// Act: 自然言語でアクション
await page.act("Click the login button");

// Extract: データ抽出
const data = await page.extract({
  schema: z.object({ title: z.string() })
});

// Observe: アクション検出
const actions = await page.observe();

// Agent: ワークフロー自動化
await page.agent("Complete the checkout process");

コードと自然言語のハイブリッドで、柔軟性と制御のバランスが取れている。

AIエージェント統合ツールの比較

項目Playwright MCPagent-browserStagehand
提供形式MCP ServerCLISDK
設定MCP設定必要npmのみnpmのみ
AI依存度
出力MCP形式テキスト/JSONPlaywright
特徴公式サポート軽量ハイブリッド

カテゴリ3: CI/CD本番運用向け(高信頼性)

対象ツール: Stagehand, Skyvern, Checksum, Momentic

本番CIで使うなら、フレーク(不安定なテスト)対策が必須。このカテゴリのツールは、セルフヒーリングやキャッシュ機能で信頼性を担保している。

セルフヒーリングの3つのアプローチ

1. 要素キャッシング型(Stagehand)

実行1回目: [通常処理] → 要素キャッシュ生成
実行2回目以降: [キャッシュリプレイ] → (LLM不要)
破損時: [キャッシュ失敗] → [自動リトライ] → [LLM推論]

StagehandはENABLE_CACHING=trueで要素のキャッシュを有効化できる。一度成功した操作は記録され、次回以降はLLMを呼び出さずにリプレイする。DOMが変わったらキャッシュが無効になり、自動でLLM推論にフォールバック。

メリット:

  • 継続実行が高速・低コスト
  • 決定論的なリプレイが可能

デメリット:

  • 初回はLLM必須
  • 大きなUI変更では再学習が必要

2. Validator Agent型(Skyvern)

実行1回目: [Planner] → [Actor] → [Validator検証] → 成功パス記録
実行2回目以降: [Playwright化されたスクリプト] → (超高速)
破損時: [AI復活] → [新パス学習]

Skyvernは3段階のエージェント構成:

  • Planner: 高レベルのゴールを保持
  • Actor: 即時のステップを実行
  • Validator: 実際に動作したか検証

Validatorが各ステップ後にスクリーン確認するので、「クリックしたつもりが実際はできていなかった」という問題を検出できる。成功パスはPlaywrightスクリプトに「コンパイル」され、次回以降は超高速で実行。

メリット:

  • 3段階検証で信頼性が高い
  • コンパイル後は最低コスト

デメリット:

  • 初回はVision AI必須で遅く高い
  • 複雑タスクでの失敗事例あり

ベンチマーク: WebVoyager evalで**85.85%**を達成(v2.0)。これは調査時点でのSOTA。

3. インテントベース型(Checksum, Momentic)

テスト定義: 「ログインボタンをクリック」(意図)
実行時: [AIが現在のDOMから該当要素を探索]
DOM変更時: [AIが新しい構造から再探索]

セレクタではなく「意図」を定義するアプローチ。DOMが変わっても、AIが「ログインボタン」に該当する要素を毎回探す。

Checksum:

  • 実際のユーザーセッションからテストフローを自動発見
  • フレーク率1%未満(公式発表)
  • Playwright/Cypressネイティブコード出力でベンダーロックインなし

Momentic:

  • 自然言語またはブラウザ録画でテスト作成
  • Notion, Quora, Webflow等2,600社以上が導入
  • 2025年11月に$15MのシリーズA調達

CI/CD向けツールの比較

項目StagehandSkyvernChecksumMomentic
タイプOSSOSS/Cloud商用商用
フレーク対策キャッシングValidatorAI再探索AI再探索
初回コスト--
継続コスト最低テスト単位実行量
CI統合
並列実行

カテゴリ4: フルマネージドサービス

対象ツール: QA Wolf, testRigor

「ツールを使う」のではなく「サービスを使う」選択肢。QAリソースが不足している場合や、テストメンテナンスを完全にアウトソースしたい場合に検討。

QA Wolf

ゼロフレーク保証を掲げる唯一のサービス。ツールではなく、人間のQAエンジニアがバックアップする。

サービス内容:

  • 4ヶ月で80%のE2Eテストカバレッジ達成を保証
  • 24時間体制でテストをメンテナンス
  • Playwright/Appiumネイティブコードで納品(ベンダーロックインなし)
  • 無制限の並列実行インフラ

価格:

  • テスト単位の月額固定料金
  • 目安: $40-44/テスト/月
  • 年間契約中央値: $90,000

高い。けど、QAチームを雇うよりは安いケースもある。フレークに悩まされる時間がゼロになるのは大きい。

testRigor

非エンジニアでもテストを書けるのが売り。Plain English(自然言語)でテストを記述する。

login as "user@example.com" with password "secret"
click "Submit Order"
check that page contains "Order Confirmed"

特徴:

  • 手動QAでもテスト作成可能
  • 2000以上のブラウザ/OS組み合わせに対応
  • オンプレミス対応
  • メンテナンス時間を95%削減(公式)

価格:

  • 無料プラン: あり(テスト/結果が公開される)
  • 有料プラン: 00〜900の2つのエディション
  • 全プランで無制限テストケース、無制限ユーザー

testRigorの無料プランは、テスト内容が公開されるので本番では使いづらい。ただ、$900からの有料プランは商用としては安い部類。

フルマネージドサービスの比較

項目QA WolftestRigor
タイプマネージドサービスツール
フレーク率0%保証95%メンテ削減
テスト作成者QAエンジニア代行非エンジニア可
ベンダーロックインなしあり
価格帯年$90K中央値00〜900
向いているケースQAリソース不足非エンジニア参加

横断比較表

信頼性

ツールフレーク率セルフヒーリング再現性検証機構
Shortestなしなし
Playwright MCPなしなし
agent-browserなしなし
Stagehandキャッシング自動リトライ
Browser Use限定的なし
SkyvernValidator3段階検証
Checksum高(<1%)AI再探索-
MomenticAI再探索-
QA Wolf最高(0%)人間対応最高人間レビュー
testRigorAI修復-

速度

ツール初回実行継続実行LLM最適化並列対応
Shortestなし
Playwright MCP高速高速不要
agent-browser高速高速不要
Stagehand高速キャッシュ
Browser Use高速高速モデル選択
Skyvern遅い最速コンパイル
Checksum---
Momentic---
QA Wolf---
testRigor高速高速-

コスト

ツールタイプLLM API月額目安
ShortestOSSClaude必須API従量
Playwright MCPOSS不要無料
agent-browserOSS不要無料
StagehandOSS任意API従量
Browser UseOSS任意API従量
SkyvernOSS/Cloud任意API従量 or $0.05-0.10/step
Checksum商用不要テスト単位課金
Momentic商用不要実行量課金
QA Wolf商用不要$40-44/テスト/月
testRigor商用不要00〜900

選定フローチャート

[スタート]


QAリソースはある?

    ├─ ない → [QA Wolf] を検討(予算次第)


既存のSelenium/Cypress資産がある?

    ├─ ある → [Checksum] で移行


非エンジニアにテストを書かせたい?

    ├─ はい → [testRigor] か [Momentic]


AIエージェント(Claude Code等)との連携が主目的?

    ├─ はい → [Playwright MCP] か [agent-browser]


予算は?

    ├─ 低い → [Stagehand](OSS、キャッシュで低コスト)

    ├─ 中程度 → [Skyvern](初回高いが継続最安)

    └─ ある → [Momentic] か [Checksum]

アクセシビリティツリー vs Vision AI

最後に、技術的な観点で2つのアプローチを比較しておく。

手法速度精度コスト代表ツール
アクセシビリティツリー高速高い低いPlaywright MCP, agent-browser
Vision AI遅い柔軟高いSkyvern
ハイブリッド中間最高中間Stagehand

アクセシビリティツリーは構造化データなので処理が速く、トークン消費も少ない。ただし、アクセシビリティ情報が不十分なサイト(古いサイトやSPA)では要素を見つけられないことがある。

Vision AIはスクリーンショットを見て判断するので、どんなサイトでも対応できる。ただし画像処理のコストが高く、1ページあたり数秒かかることも。

実用的には、アクセシビリティツリーをベースにしつつ、失敗時にVisionにフォールバックするハイブリッドが良いバランスになりそう。Stagehandはこのアプローチを取っている。


銀の弾丸はない。用途に応じて使い分けるのが現実解。

  • 探索的テスト → Shortest, Browser Use
  • AIエージェント統合 → Playwright MCP, agent-browser
  • CI/CD本番 → Stagehand, Skyvern, Checksum, Momentic
  • フルアウトソース → QA Wolf

個人的には、OSSならStagehand、商用ならMomenticが気になっている。セルフヒーリングの仕組みがしっかりしていて、継続的に使うほどコストが下がる設計になっているのが良い。

関連記事: