ARC-AGI-3発表、インタラクティブ推論でフロンティアAIが1%未満
2026年3月24日、François Cholletらがインタラクティブ推論ベンチマーク「ARC-AGI-3」を公開した。技術報告書と評価ハーネス(SDK)、そしてリーダーボードが同時に公開され、ARC Prize 2026の競技トラックも開設されている。
ARC-AGI-3が測ろうとしているもの
ARC-AGI-1・2はグリッドの入出力ペアを見て変換ルールを推論する「静的パズル」だった。ARC-AGI-3はここから大きく変わり、エージェントが環境に実際に働きかけながらルールを推論する「インタラクティブ推論ベンチマーク(IRB)」になった。
具体的には、エージェントはターンベースのゲーム環境に放り込まれる。ゴールは開示されない。指示もない。何が勝利条件かすら教えない。エージェントは行動してフィードバックを受けながら、環境のモデルを構築し、目的を自力で見つけ出す必要がある。
設計原則はシンプルで、「人間がすぐ理解できるが、事前知識のないAIには解けない」タスクを作ることだ。数字・文字・文化的記号は一切使わない。64×64グリッドと16色のみで構成された視覚的タスクで、言語モデルが自然言語から引き出せる「パターンの記憶」が通用しないように設計されている。
ランダムエージェントがレベルをクリアする確率は1万分の1以下に設定されており(ls20では1/355など)、総当たり的なアプローチは機能しない。
フロンティアLLMのスコア
2026年3月時点のセミプライベートリーダーボードでは、主要なフロンティアモデルはすべて1%未満にとどまる。
| Provider | モデル | スコア |
|---|---|---|
| Gemini 3.1 Pro Preview | 0.37% | |
| OpenAI | GPT 5.4 (High) | 0.26% |
| Anthropic | Opus 4.6 (Max) | 0.25% |
| xAI | Grok-4.20 (Beta 0309 Reasoning) | 0.00% |
2025年7〜8月に開催されたプレビュー競技では、フロンティアLLMではなくCNN+強化学習の組み合わせがトップだった。
| エントリ | アプローチ | スコア |
|---|---|---|
| StochasticGoose (Tufa Labs) | CNN + 強化学習 | 12.58% |
| Blind Squirrel | 状態グラフ探索 | 6.71% |
人間の参加者は486名で、全タスクを100%クリア可能であることが確認されている。
評価指標RHAE
評価には RHAE(Relative Human Action Efficiency)という指標を使う。
各レベルで「AIのアクション数 ÷ 人間ベースライン(2番目に優れた人間のアクション数)」の比を計算し、それを二乗してスコア化する。5レベルを後半ほど重みを大きくした線形加重で平均する。
AIが人間と同等のアクション数でクリアすればスコアは1.0(最大値)。人間の5倍を超えたアクション数を使った場合はカットオフされて0点扱いになる。
この方式の意図は、最終的にクリアできたかどうかだけでなく、どれだけ効率よく学習できたかを測ることだ。AI が 1000 手かけて人間が 10 手でクリアするタスクは、どちらも正解でもスコアは大きく異なる。
ARC-AGI-2飽和問題とその対応
ARC-AGI-2は2025年に Gemini 3 などのフロンティアモデルが高スコアを記録したが、報告書によると訓練データへの混入の証拠があるという。Gemini 3が整数→色マッピングを指示なしで正確に使用したことなどがその根拠として挙げられている。
ARC-AGI-3はインタラクティブ環境にすることで、「問題と答えのペアを暗記する」アプローチを無効化しようとしている。毎回ランダムに生成される環境でリアルタイムに動くエージェントの評価では、記憶の再生ではなく、その場での推論が問われる。
データセットとリソース
| データセット | 環境数 |
|---|---|
| Public Demo | 25 |
| Semi-Private | 55 |
| Fully Private | 55 |
技術報告書の作成にあたって収集された人間データは 486 ユニーク参加者・414 候補環境・2,893 回のアテンプト。アテンプト中央値は 7.4 分、成功時の中央値は 8.1 分だった。参加者には固定報酬(5が支払われた。
ARC Prize 2026 では ARC-AGI-2(最終年)と ARC-AGI-3 の両トラックが Kaggle で開催される。賞金総額は $2M。
SDK と評価ハーネス、Public Demo の 25 環境は arcprize.org/arc-agi/3 から利用できる。
要するにどういうテストなのか
ここまで読んで「グリッドパズル?インタラクティブ推論?何のこと?」となった人向けに、もう少し噛み砕いて説明する。
ARC-AGI-1・2は「この法則、わかる?」テスト
まず前身のARC-AGI-1・2から。これは色のついたマス目(グリッド)を使ったパターン推論テストだった。
たとえばこんな問題が出る。
| 入力 | 出力 | |
|---|---|---|
| 例題1 | 赤いマスが左上に1個 | 赤いマスが右下に1個 |
| 例題2 | 青いマスが左上に1個 | 青いマスが右下に1個 |
| 本番 | 緑のマスが左上に1個 | ? |
答えは「緑のマスが右下に1個」。法則は「マスの位置を対角線上に反転する」。
実際の問題はもっと複雑だが、やることは同じ。「入力と出力の例をいくつか見て、隠れた法則を当てる」テスト。IQテストの図形問題に近い。
ARC-AGI-3は「何をすればいいかも自分で考えろ」テスト
ARC-AGI-3では根本的にやり方が変わった。問題を見て答えを出すのではなく、ゲームの中に放り込まれる。
graph TD
A[64×64マスのゲーム画面が表示される<br/>ルール説明なし、チュートリアルなし] --> B[画面を見て何か操作する<br/>マスを塗る、動かすなど]
B --> C[操作に応じて画面が変化する]
C --> D{変化のパターンから<br/>ゲームの目的を推測}
D -->|まだわからない| B
D -->|わかった| E[推測に基づいて行動]
E --> F{クリア?}
F -->|失敗| B
F -->|成功| G[レベルクリア]
説明書なしでいきなりゲームを始めて、「たぶんこういうルールだな」と自分で気づかなければいけない。初見のボードゲームを説明書を読まずに、他の人がプレイしているのを見ながら覚えていく感覚に近い。
人間なら「あ、これたぶんこういうことでしょ」と数分で気づく。実験では486人の参加者が全タスクをクリアできた。平均8分程度。
一方、2026年3月時点の最強AIたち(GPT 5.4、Claude Opus 4.6、Gemini 3.1 Pro)は軒並み1%未満。ほぼ何もクリアできていない。
なぜAIにはこれが難しいのか
現在のLLM(大規模言語モデル)は大量のテキストから学習したパターンの引き出しで動いている。プログラミングの質問に答えられるのは似たコードを大量に見てきたから。数学の問題が解けるのは似た解法を知っているから。
ARC-AGI-3の環境は毎回ランダム生成される。過去に見たパターンの使い回しが通用しない。さらに文字も数字も一切使わず、64×64の色グリッドだけで構成されているため、言語能力という最大の武器も封じられている。
このテストは純粋に、初めて見る状況にその場で適応できるかを測っている。知識量は関係ない。人間が日常的にやっていることだが、今のAIにとっては最も苦手な領域だ。