GPT-5.4 ProがFrontierMathのRamsey超グラフ問題を初解決、Brian-Larson予想の漸近正確性も示す
Epoch AIが運営する数学ベンチマーク「FrontierMath」に収録された15題の研究者レベル未解決問題のうち、最初の1題が解かれた。GPT-5.4 Proがハイパーグラフのパーティション問題(Ramsey超グラフ問題)を自由形式の会話の中で解き、Epoch AIが正式に確認した。さらにフォローアップでは、設問の範囲を超えてBrian-Larson予想の漸近的正確性まで示すに至っている。
Claude Opus 4.6とGemini 3.1 ProもEpochのスキャフォールド(AIの推論を段階的に誘導する補助フレームワーク)内で後続解決を達成している。
FrontierMathとは何か
FrontierMath(Epoch AI)は、現役数学研究者が作成した未解決問題または非自明な既知問題を集めたベンチマークだ。スコアを積み上げる通常のベンチマークとは異なり、各問題はコード検証可能な形式で設計されており、模範解答と一致するアルゴリズムを生成できなければ「解けた」とみなされない。
15題の問題は4段階の注目度で分類されている。
| 注目度 | 件数 | 説明 |
|---|---|---|
| Moderately interesting | 4 | 専門誌に掲載可能な標準的な結果 |
| Solid result | 5 | 主要誌に掲載可能な水準 |
| Major advance | 3 | 分野に大きな影響を与える成果 |
| Breakthrough | 3 | 10年以上未解決の重大問題 |
テーマは数論6題、組合せ論6題、代数幾何1題、位相・幾何学2題。今回解かれたRamsey超グラフ問題は「Moderately interesting」分類で、専門家の推定解答時間は1〜3ヶ月とされていた。
Ramsey超グラフ問題
Ramsey理論は「十分に大きな構造の中には、必ず何らかの規則的なパターンが現れる」ことを研究する組合せ論の一分野だ。今回はその拡張であるハイパーグラフ上のRamsey型問題で、核心は関数 H(n) の下限改善にある。何のことかわからないと思うので、順を追って説明する。
ハイパーグラフの基本定義
通常のグラフは「点と線」の構造で、1本の辺が2つの頂点を結ぶ。ハイパーグラフはこれを一般化したもので、1本のハイパーエッジが3つ以上の頂点をまとめて結ぶことができる。友人関係のグラフで例えると、通常のグラフが「AさんとBさんは友達」という2者関係しか表せないのに対し、ハイパーグラフは「A・B・Cさんは同じグループ」という3者以上の関係を1本の辺で表現できる。
形式的には、ハイパーグラフ (V, H) は頂点集合Vとハイパーエッジ集合Hからなる。例えば V = {1,2,3,4} に対してハイパーエッジ {1,2,3} や {1,2,3,4} が存在できる。
パーティションとH(n)の定義
「パーティション」は、ある集合を重複なく・漏れなくグループに分けること。例えば {1,2,3,4} を {1,2} と {3,4} に分けるのがパーティションだ。
ハイパーグラフの文脈では、頂点の部分集合Dを選び、ハイパーエッジだけを使ってDを漏れなく・重複なく分割できるとき、「サイズ|D|のパーティションが存在する」という。
H(n) は「孤立頂点を持たず、サイズn超のパーティションを含まないハイパーグラフの中で、最大でいくつの頂点を持てるか」を表す関数だ。パーティションのサイズをn以下に制限したとき、どれだけ大きなハイパーグラフを作れるかという上限を問う問題で、nが大きくなるほど制約が緩くなるので H(n) もnとともに増加する。
既知の上下限(Brian-Larson 2019)
Will BrianとPaul B. Larsonの論文(arXiv:1908.10914)は次の再帰的下限を証明した。
k₁ = 1
kₙ = ⌊n/2⌋ + k_{⌊n/2⌋} + k_{⌈n/2⌉}
「下限」とは「H(n)は少なくともこれ以上」、「上限」とは「H(n)はこれを超えない」という範囲のこと。この構成から H(n) ≥ k_n > (1/2)·n·log₂n − (1/2)n + (1/2) が導かれ、上限は H(n) < n·ln n + γn + 1/2 と知られている。下限と上限の間にギャップがあり、Brian-Larson論文は真の値が H(n) = n·ln n + o(n log n) だと予想した。o(n log n) は「n log n より十分小さい誤差項」を意味する記法で、H(n)の増え方が本質的に n·ln n で決まるという予想になる。
問題の要求
「H(n) ≥ c·k_n を満たす定数 c > 1 を示せ。n = 15 で既に成り立つこと。アルゴリズム solution(n: int) -> str として証人ハイパーグラフ(条件を満たす具体的な構成例)を返すコードも提出せよ」
要は、既存の構成 k_n をわずかでも上回る構成を見つけることが目標だった。GPT-5.2 Pro、初期Gemini 3系はいずれも失敗している。
GPT-5.4 Proの解法
GPT-5.4 Proはケビン・バレットとリアム・プライスとの自由形式の会話の中で解を導き出した。Epochのスキャフォールドを使わず、純粋な対話で問題を解いた初のケースだ。
フレーム置換補題(核心的アイデア)
GPT-5.4 Proが導入したのは「(n₁,…,nₜ)-フレーム」の概念だ。フレームとは、各ブロックをサイズ nᵢ でバウンドされたハイパーグラフで置換したとき、全体がサイズ n₁+…+nₜ でバウンドされるような骨格構造のこと。小さなハイパーグラフを組み合わせて大きな証人を再帰的に構築するための「合成規則」として機能する。
2方向フレーム(既存構成の再現)
容量 (a, b) の2方向フレームは min(a,b) コピーの辺 {1, 2} から構成される。これが次の不等式を与える。
H(a + b) ≥ min(a, b) + H(a) + H(b)
a = ⌊n/2⌋、b = ⌈n/2⌉ を代入すると Brian-Larson の k_n 再帰式が再現される。つまり2方向フレームは既存の手法を「フレーム」の言葉で書き直しただけで、この段階ではまだ改善がない。
4方向フレーム(核心的改善)
GPT-5.4 Proが発見した鍵は、4つの頂点をまとめるハイパーエッジ {1,2,3,4} を軸にした13辺のガジェット(特定の性質を満たすよう設計された小構造)C だ。
・{1,2}、{1,3}、{1,4}、{2,3}、{2,4}、{3,4} (2要素部分集合6本)
・{1,2,3}、{1,2,4}、{1,3,4}、{2,3,4} (3要素部分集合4本)
・{1,2,3,4} × 3本 (4要素全体3本)
合計: 13本
このガジェットは (3,3,3,3)-フレームになる。ポイントは「複数のブロックにまたがる外部頂点」の存在だ。これらの頂点は頂点数に貢献するが、再帰的なパーティション予算のどのブロックにも「消費」されない。2方向の分割では生じなかったこの余剰が、k_nを超える改善を生む。直感的には、2分割から4分割に変えることで「どのブロックにも属さない余りの頂点」が発生し、全体の頂点数を稼げるようになった。
n=15での最初の証明
15 = 4×3 + 3 と分解する。
A₁₅ ≥ A₃ + 3×A₄ + e₃(3) = 5 + 3×8 + 15 = 44
k₁₅ = 43
44/43 > 1 → c > 1 の存在を証明
定数は c = 57/56 > 1(n = 32で最小比率)。問題の要求を完全に満たす。
漸近的一般化(予想の証明へ)
フォローアップで、GPT-5.4 Proはさらに一般的なt進調和族に拡張した。「漸近的」とはnが十分大きいときの振る舞いを指す。t方向フレームを用いると、
H(n) ≥ ((H_t − 1) / ln t) · n·ln n − O_t(n)
ここで H_t = 1 + 1/2 + … + 1/t は調和級数(逆数を足し続ける級数)の部分和で、tを大きくすると ln t に近づく性質がある。この性質から (H_t − 1)/ln t → 1 となるため、
H(n) ≥ (1 − o(1)) · n·ln n
これはBrian-Larsonが予想した上限 H(n) < n·ln n と漸近的に一致する。GPT-5.4 Proは設問の要求を超えて、Brian-Larson予想の漸近的正確性を実質的に証明した。平たく言えば「H(n)の真の増え方は n·ln n のオーダーである」ことを下限側からも示したということだ。上限(これ以上にはならない)と下限(少なくともこれ以上)が同じオーダーで一致したので、2019年のBrian-Larson予想は本質的に正しかったことになる。k_nとの乗法的改善比は漸近的に 2·ln 2 ≈ 1.386 となる。
小さなnでの改善幅(k_nとの比較)を一部示す。
| n | k_n | GPT解の頂点数 | 改善 |
|---|---|---|---|
| 15 | 43 | 44 | +1 |
| 16 | 48 | 49 | +1 |
| 18 | 53 | 57 | +4 |
| 20 | 60 | 65 | +5 |
| 24 | 76 | 82 | +6 |
| 25 | 79 | 85 | +6 |
各モデルの状況
GPT-5.4 Proが初解決後、Epoch AIはスキャフォールドを用いて他のモデルも評価した。
| モデル | 変種 | 解決 |
|---|---|---|
| GPT-5.2 Pro | 全変種 | ❌(4試行すべて失敗) |
| Gemini 3 Deep Think | 全問題 | ❌(動作しない探索解を提出) |
| GPT-5.4 Pro | 全問題 | ✅ (初解決・自由会話) |
| GPT-5.4 (xhigh) | 全問題 | ✅(スキャフォールド) |
| Claude Opus 4.6 (max) | 全問題 | ✅(スキャフォールド) |
| Gemini 3.1 Pro | 全問題 | ✅(スキャフォールド) |
Claude Opus 4.6とGemini 3.1 Proはいずれも後続でスキャフォールド内で解決している。
数学者のコメント
問題の出題者であるWill Brian(ノースカロライナ大学シャーロット校准教授)は次のコメントを寄せている。
「これは私が非常に興味深いと思っている問題への刺激的な解決だ。以前にもAIのアプローチに似た方向性を考えたことはあったが、実際にうまくいくかどうか判断できずにいた。今見ると完璧に機能している。私たちの下限構成の非効率を排除しており、ある意味では私たちの上限構成の緻密さを反映している。Ramsey理論的問題としては上限と下限が非常によく合致しており、なぜこれほどうまく機能するのかをさらに理解したい」
BrianはGPT-5.4 Proの解を論文として書き起こす予定があり、会話を進めたKevin BarrettとLiam Priceを共著者として招待する意向を示している。
FrontierMathの残り14問は現時点でいずれも未解決のままだ。