GPT-Image-2がLM Arenaにリーク、テープ系コードネームで2波にわたり出現
目次
2026年4月4日、画像生成モデルのベンチマークサイト LM Arena(旧Chatbot Arena、現arena.ai)に、見慣れない3つのモデルが突然現れた。
- maskingtape-alpha(マスキングテープ)
- gaffertape-alpha(ガファーテープ)
- packingtape-alpha(梱包テープ)
テープの種類をもじったコードネーム。
数時間後にはArenaから削除されたが、その短い間にテスターたちが残したブラインドテストの結果は衝撃的だった。
当時の画像生成首位モデル、Google DeepMindのNano Banana Proを明確に上回っていた。
正体はOpenAIが開発中の次世代画像生成モデル、GPT-Image-2とされている。
そして4月中旬、テープ系モデルは新しいコードネームで再び姿を現した。
OpenAIの「Arena匿名テスト」は前例がある
OpenAIがLM Arenaで未発表モデルを匿名テストするのは今回が初めてではない。
graph TD
A["匿名コードネームで<br/>LM Arenaに投入"] --> B["コミュニティが<br/>ブラインドテスト"]
B --> C["数時間〜数日で<br/>Arenaから削除"]
C --> D["数週間後に<br/>正式リリース"]
2025年12月にもChestnutとHazelnutというコードネームのモデルがArenaに出現し、数週間後にGPT Image 1.5として正式リリースされた。
今回のテープ系コードネームも同じパターンで、開発者のPieter Levels(@levelsio)やVCのJustine Moore(@venturetwins)が特定のテストケースを報告して話題が広がった。
OpenAI's new image model GPT-Image-2 has leaked
— @levelsio (@levelsio) April 4, 2026
It seems to have extremely good world knowledge and great text rendering
Possibly better than Nano Banana Pro
(2) World creation
— Justine Moore (@venturetwins) April 3, 2026
The model is exceptionally good at taking relatively simple prompts and creating a detailed environment. For these images, I gave prompts like "anime shot inside a16z office" or "video game of SF."
テスト結果: 何がどう強かったのか
テープ系モデルは削除前に公式Eloスコアが公表されなかったが、コミュニティのブラインドテストで以下の結果が報告されている。
テキストレンダリング
GPT Image 1.5の時点でテキスト精度は90〜95%と言われていたが、テープ系モデルではほぼ完璧に近いレベルに到達している。
手書き風の医療ノートや、漫画のコマ内の吹き出しテキストまで正確に描画できたという報告がある。
ワールドナレッジ
IKEAの店舗外観を建築的に正確に再現し、YouTubeやWindowsのUIをスクリーンショットと見分けがつかないレベルで生成した。
Minecraftのゲーム内UIを正しく含んだ一人称視点のスクリーンショットでは、maskingtape-alphaが全競合モデルを圧倒している。
フォトリアリズム
テクスチャとライティングが実写に近づき、ポートレートは「本物の写真と区別がつかない」という評価が出ている。
手の解剖学的な正確さやサングラスの反射も改善された。
あるテスターは「Nano Banana ProがDALL-Eに見える」と表現していた。
リアリズム、テキスト、ワールドナレッジの3カテゴリを同時に制したのは珍しいとされている。
GPT-Image-2の技術的な変化(リーク情報ベース)
GPT Image 1.5がGPT-4oに統合されたモデルだったのに対し、GPT-Image-2は独立したアーキテクチャを採用しているとされる。
| 項目 | GPT Image 1.5 | GPT-Image-2(リーク) |
|---|---|---|
| アーキテクチャ | GPT-4o統合型(2段階推論) | 独立型(シングルパス推論) |
| 手法(推定) | 自己回帰 + 拡散のハイブリッド | 自己回帰 + 拡散のハイブリッド |
| 最大アスペクト比 | 3:2 | 16:9 |
| テキスト精度 | 90〜95% | ほぼ完璧 |
| 色味 | 暖色系の黄色キャストあり | ニュートラル |
| 生成速度 | 8〜12秒 | 3秒未満(予測) |
| 解像度上限 | 1536×1024 | 2048×2048(予測) |
16:9のワイドスクリーン出力に対応したのは実用上の大きな進歩で、プロンプトに「Format 16:9」を含めると16:9で出力されるかどうかが、GPT-Image-2のアクティベーション識別手段として使われていた。
シングルパス推論
GPT Image 1.5では、まずテキスト理解(自己回帰フェーズ)で入力を解釈し、次に画像生成(拡散フェーズ)でピクセルを生成するという2段階の処理を踏んでいた。
GPT-Image-2ではこれが1パスに統合され、テキスト理解と画像生成が同時に進行する。生成速度の大幅な改善(8〜12秒 → 3秒未満)はこのアーキテクチャ変更によるところが大きいと推測されている。
GPT Image 1.5が抱えていた黄色キャスト問題
GPT Image 1.5で生成した画像には暖色系の黄色がかったカラーキャストがかかる傾向があり、特に白背景やニュートラルな色調を求めるプロンプトで目立っていた。テープ系モデルではこの黄色キャストが解消されており、色再現性が大きく改善されている。
現在のLM Arenaリーダーボード
2026年4月9日時点、累計450万票以上のブラインドテスト結果に基づくEloランキング(抜粋)。
| 順位 | モデル | Elo |
|---|---|---|
| 1位 | gemini-3.1-flash-image-preview(Google) | 1264 ± 6 |
| 2位 | gpt-image-1.5-high-fidelity(OpenAI) | 1241 ± 4 |
| 3位 | gemini-3-pro-image-preview-2k(Google) | 1237 ± 4 |
| 24位 | gpt-image-1 | 1115 ± 3 |
| 51位 | dall-e-3 | 968 ± 4 |
テープ系モデルはこのリーダーボードには載っていない。
LM Arenaには「Battle Mode」というブラインドテスト機能があり、2つの匿名モデルが同じプロンプトで画像を生成し、ユーザーがどちらが良いか投票する。
投票後に初めてモデル名が明かされる仕組みで、テープ系モデルはこのBattle Modeのローテーションにのみ存在していた。
リーダーボードで探しても見つからないのはそのためだ。
現在の首位はGoogleのGemini 3.1 Flash Image Previewで、GPT Image 1.5は2位。GPT-Image-2が正式リリースされれば、このランキングが大きく動く可能性がある。
DALL-Eブランドの終焉
OpenAIは2026年5月12日にDALL-E 2とDALL-E 3の廃止を予定している。
今後は「GPT Image」シリーズに一本化される見通しで、DALL-Eというブランド名は歴史的な役割を終えることになる。
別の文脈では、2026年3月24日にOpenAIは動画生成モデルSoraも終了させている。
推論コストが1日あたり1500万ドルに対し、生涯売上が210万ドルだったという凄まじい赤字運用だった。
OpenAIのマルチメディア戦略は、画像生成をGPT Imageに集約する方向に動いている。
第2波: duct-tape系コードネームで再出現
4月14〜15日頃、LM ArenaのBattle Modeに新たなテープ系コードネームが3つ出現した。
- duct-tape-1
- duct-tape-2
- duct-tape-3
第1波のmaskingtape/gaffertape/packingtapeが数時間で削除されたのに対し、duct-tape系はすぐには削除されず、Battle Modeのローテーションに残り続けた。
公式リーダーボードには載っておらず、Battle Modeでプロンプトを投げて投票すると対戦相手のモデル名が表示される仕組みで、そこにduct-tape系が出現していた。
ただし4月16日時点では筆者がBattle Modeで複数回試した限りduct-tape系の出現は確認できず、既に削除された可能性がある。
gpt-image-2 was tested in lmarena last week and has now reappeared under different names: duct-tape-1 duct-tape-2 duct-tape-3
— Haider (@haider1) April 15, 2026
GPT Image V2 in on LM Arena. It has three variations; Duct Tape 1, 2 and 3. Duct Tape 2 and 3 looks better.
— can (@marmaduke091) April 14, 2026
Battle Modeの仕組み
duct-tape系を試すにはBattle Modeを使う必要があった。手順は以下の通り。
- arena.ai にアクセス
- 左上が「Battle Mode」になっていることを確認
- プロンプトを入力して画像生成
- 2つの匿名モデルによる画像が並ぶので、良い方に投票
- 投票後にモデル名が表示される
- duct-tape-1 / duct-tape-2 / duct-tape-3 が当たればGPT-Image-2とされるモデル
完全にガチャで、対戦相手のモデルは選べない。
第1波同様、短期間で削除されたとみられる。
バリアント間の評価差
コミュニティのテスト報告では、duct-tape-2とduct-tape-3の評価が高く、duct-tape-1は比較的軽量とされている。
duct-tape-3はディテールの作り込みが最も強く、キャラクターの画風を維持したまま細かい背景を生成できるという報告が出ている。
なにこれ… OpenAIの次のモデル?らしいduct-tape-3、今までの画像生成とレベルが違う。参照画像のキャラの画風を崩さずにここまで細かい背景を作成できる。しかも遠くの看板にユーザーネームを入れられるくらいテキスト描画精度が高い。完全にNanobanaを超えてる。
— 海馬れいしょ (@visual_memory_) April 15, 2026
日本語テキストの描画精度
duct-tape系では日本語テキストの描画精度も大幅に向上している。
日本の電車内広告をプロンプトで生成したテストでは、日本語のレイアウトと文字の再現度が非常に高かった。
arena aiで出現中のduct-tape(GPT-Image2だと言われてる)ちょっとすごすぎるかも。プロンプトはこれだけ「添付のキャラクターの形をしたアイスの広告、日本の電車内広告」日本語とレイアウトの再現度が高すぎる
— とらの (@TlanoAI) April 15, 2026
ルービックキューブの鏡面反射はまだ解けない
ルービックキューブの鏡面反射テスト(鏡に映ったキューブの色配置が物理的に正しいか)では、GPT-Image-2もまだ失敗する。空間推論の限界は世代が変わっても残っているようだ。
リリース時期と価格の予測
アナリストのコンセンサスでは、2026年4月下旬〜5月中旬の正式リリースが予想されている。
DALL-E廃止日(5月12日)との整合性を考えると、その前後が有力。
API価格は1画像あたり$0.15〜$0.20と予測されている。
GPT Image 1.5のhigh-fidelityモード(1024×1024)が$0.133〜$0.200なので、大きな価格変動はなさそうだ。
第1波は数時間で消えたが、第2波のduct-tape系はしばらくBattle Modeに残った。
OpenAIが意図的にブラインドテストを続けている可能性が高い。
Chestnut/Hazelnutのときは数週間後に正式リリースされたので、GPT-Image-2もDALL-E廃止の5月12日前後には来るだろう。