GPT-Image-2がLM Arenaにリーク、テープ系コードネームで数時間だけ出現
目次
2026年4月4日、画像生成モデルのベンチマークサイト LM Arena(旧Chatbot Arena、現arena.ai)に、見慣れない3つのモデルが突然現れた。
- maskingtape-alpha(マスキングテープ)
- gaffertape-alpha(ガファーテープ)
- packingtape-alpha(梱包テープ)
テープの種類をもじったコードネーム。
数時間後にはArenaから削除されたが、その短い間にテスターたちが残したブラインドテストの結果は衝撃的だった。
当時の画像生成首位モデル、Google DeepMindのNano Banana Proを明確に上回っていた。
正体はOpenAIが開発中の次世代画像生成モデル、GPT-Image-2とされている。
OpenAIの「Arena匿名テスト」は前例がある
OpenAIがLM Arenaで未発表モデルを匿名テストするのは今回が初めてではない。
graph TD
A["匿名コードネームで<br/>LM Arenaに投入"] --> B["コミュニティが<br/>ブラインドテスト"]
B --> C["数時間〜数日で<br/>Arenaから削除"]
C --> D["数週間後に<br/>正式リリース"]
2025年12月にもChestnutとHazelnutというコードネームのモデルがArenaに出現し、数週間後にGPT Image 1.5として正式リリースされた。
今回のテープ系コードネームも同じパターンで、開発者のPieter Levels(@levelsio)やVCのJustine Moore(@venturetwins)が特定のテストケースを報告して話題が広がった。
OpenAI's new image model GPT-Image-2 has leaked
— @levelsio (@levelsio) April 4, 2026
It seems to have extremely good world knowledge and great text rendering
Possibly better than Nano Banana Pro
(2) World creation
— Justine Moore (@venturetwins) April 3, 2026
The model is exceptionally good at taking relatively simple prompts and creating a detailed environment. For these images, I gave prompts like "anime shot inside a16z office" or "video game of SF."
テスト結果: 何がどう強かったのか
テープ系モデルは削除前に公式Eloスコアが公表されなかったが、コミュニティのブラインドテストで以下の結果が報告されている。
テキストレンダリング
GPT Image 1.5の時点でテキスト精度は90〜95%と言われていたが、テープ系モデルではほぼ完璧に近いレベルに到達している。
手書き風の医療ノートや、漫画のコマ内の吹き出しテキストまで正確に描画できたという報告がある。
ワールドナレッジ
IKEAの店舗外観を建築的に正確に再現し、YouTubeやWindowsのUIをスクリーンショットと見分けがつかないレベルで生成した。
Minecraftのゲーム内UIを正しく含んだ一人称視点のスクリーンショットでは、maskingtape-alphaが全競合モデルを圧倒している。
フォトリアリズム
テクスチャとライティングが実写に近づき、ポートレートは「本物の写真と区別がつかない」という評価が出ている。
手の解剖学的な正確さやサングラスの反射も改善された。
あるテスターは「Nano Banana ProがDALL-Eに見える」と表現していた。
リアリズム、テキスト、ワールドナレッジの3カテゴリを同時に制したのは珍しいとされている。
GPT-Image-2の技術的な変化(リーク情報ベース)
GPT Image 1.5がGPT-4oに統合されたモデルだったのに対し、GPT-Image-2は独立したアーキテクチャを採用しているとされる。
| 項目 | GPT Image 1.5 | GPT-Image-2(リーク) |
|---|---|---|
| アーキテクチャ | GPT-4o統合型(2段階推論) | 独立型(シングルパス推論) |
| 手法(推定) | 自己回帰 + 拡散のハイブリッド | 自己回帰 + 拡散のハイブリッド |
| 最大アスペクト比 | 3:2 | 16:9 |
| テキスト精度 | 90〜95% | ほぼ完璧 |
| 色味 | 暖色系の黄色キャストあり | ニュートラル |
| 生成速度 | 8〜12秒 | 3秒未満(予測) |
| 解像度上限 | 1536×1024 | 2048×2048(予測) |
16:9のワイドスクリーン出力に対応したのは実用上の大きな進歩で、プロンプトに「Format 16:9」を含めると16:9で出力されるかどうかが、GPT-Image-2のアクティベーション識別手段として使われていた。
シングルパス推論
GPT Image 1.5では、まずテキスト理解(自己回帰フェーズ)で入力を解釈し、次に画像生成(拡散フェーズ)でピクセルを生成するという2段階の処理を踏んでいた。
GPT-Image-2ではこれが1パスに統合され、テキスト理解と画像生成が同時に進行する。生成速度の大幅な改善(8〜12秒 → 3秒未満)はこのアーキテクチャ変更によるところが大きいと推測されている。
GPT Image 1.5が抱えていた黄色キャスト問題
GPT Image 1.5で生成した画像には暖色系の黄色がかったカラーキャストがかかる傾向があり、特に白背景やニュートラルな色調を求めるプロンプトで目立っていた。テープ系モデルではこの黄色キャストが解消されており、色再現性が大きく改善されている。
現在のLM Arenaリーダーボード
2026年4月9日時点、累計450万票以上のブラインドテスト結果に基づくEloランキング(抜粋)。
| 順位 | モデル | Elo |
|---|---|---|
| 1位 | gemini-3.1-flash-image-preview(Google) | 1264 ± 6 |
| 2位 | gpt-image-1.5-high-fidelity(OpenAI) | 1241 ± 4 |
| 3位 | gemini-3-pro-image-preview-2k(Google) | 1237 ± 4 |
| 24位 | gpt-image-1 | 1115 ± 3 |
| 51位 | dall-e-3 | 968 ± 4 |
テープ系モデルは削除済みのためリストにない。現在の首位はGoogleのGemini 3.1 Flash Image Previewで、GPT Image 1.5は2位。GPT-Image-2が正式リリースされれば、このランキングが大きく動く可能性がある。
DALL-Eブランドの終焉
OpenAIは2026年5月12日にDALL-E 2とDALL-E 3の廃止を予定している。
今後は「GPT Image」シリーズに一本化される見通しで、DALL-Eというブランド名は歴史的な役割を終えることになる。
別の文脈では、2026年3月24日にOpenAIは動画生成モデルSoraも終了させている。
推論コストが1日あたり1500万ドルに対し、生涯売上が210万ドルだったという凄まじい赤字運用だった。
OpenAIのマルチメディア戦略は、画像生成をGPT Imageに集約する方向に動いている。
ルービックキューブの鏡面反射はまだ解けない
ルービックキューブの鏡面反射テスト(鏡に映ったキューブの色配置が物理的に正しいか)では、GPT-Image-2もまだ失敗する。空間推論の限界は世代が変わっても残っているようだ。
リリース時期と価格の予測
アナリストのコンセンサスでは、2026年4月下旬〜5月中旬の正式リリースが予想されている。
DALL-E廃止日(5月12日)との整合性を考えると、その前後が有力。
API価格は1画像あたり$0.15〜$0.20と予測されている。
GPT Image 1.5のhigh-fidelityモード(1024×1024)が$0.133〜$0.200なので、大きな価格変動はなさそうだ。
テープ系コードネームが数時間で消えた割に情報はかなり出回ってしまった。
Chestnut/Hazelnutのときは数週間後に正式リリースされたので、GPT-Image-2もDALL-E廃止の5月12日前後には来るだろう。