技術 約10分で読めます

OpenAI GPT-5.3/5.4の連続リリースとSaguaroによる推論高速化

2026年3月の第1週だけで、OpenAIはGPT-5シリーズの新モデルを2つ連続で出してきた。3月2日のGPT-5.3 Instantと3月5日のGPT-5.4だ。同時期にarxivへ投稿されたSaguaroという推論高速化アルゴリズムも面白い内容だったので、3つまとめて整理しておく。

GPT-5.3 Instant

OpenAIが3月2日に公開したGPT-5.3 Instantは、GPT-5シリーズの4番目のモデル。System Card(モデルの安全性評価レポート)も同時に公開された。設計方針は「より速い応答」「Web検索時のコンテキスト把握の向上」「不必要な前置きや過度に断定的な言い回しの削減」の3つ。

ハルシネーション削減

System Cardで一番具体的に数値が出ていたのがハルシネーション(事実と異なる内容を生成してしまう現象)の削減だ。

評価条件削減率
高リスクな質問でWeb検索を使う場合26.8%
モデル自身の知識のみで回答する場合19.7%
ユーザーが「事実誤り」と報告した会話(Web検索あり)22.5%
ユーザーが「事実誤り」と報告した会話(知識のみ)9.6%

Web検索を併用するケースでの改善幅が大きい。ただし測定はOpenAI独自の評価セットによるもので、外部ベンチマークとの対応関係は示されていない。

会話トーンの変化

GPT-5.3 Instantでは「不必要な拒否」と「答える前の倫理的な前置き」が意図的に抑制された。従来のGPT-5シリーズは、際どい質問でなくてもやたらと注意書きを挟む傾向があったが、GPT-5.3 Instantではこれが大幅に減っている。

Web検索と自前知識の統合方法も変わった。「検索結果をそのまま並べる」のではなく「既存の理解を使って最新情報を文脈化する」方向に振られている。検索結果のコピペ感が減って、読み物として自然になった。

安全性評価の退行

改善だけではない。System Cardには退行(前モデルより悪化した点)も正直に記載されている。

評価項目GPT-5.1 Instant比GPT-5.2比
禁止コンテンツ全般改善やや悪化
性的コンテンツ悪化悪化
自傷関連-悪化

OpenAIはChatGPT上でシステムレベルの緩和策(モデル外部のフィルタリング等)を追加展開して対応するとしている。

医療分野の評価ベンチマークであるHealthBenchでは、GPT-5.3 Instantが54.1%、GPT-5.2が55.4%で小幅な後退。強みは「足りない情報を確認してから答える姿勢」(+4.4%)と「不確実なときに断定を避ける姿勢」(+4.0%)で、弱みは「紹介状が必要な場面の判断」(-10.1%)と「地域の医療事情を考慮した回答」(-5.5%)だった。

安全性評価の退行を隠さず公開している点は評価できる。ただし評価手法の詳細はOpenAI Deployment Safety Hubの完全版に委ねられており、第三者が独立に再現するのは難しい状況だ。

API料金

GPT-5.3 InstantはChatGPT内部のモデルとして動作しており、APIでは gpt-5.3-chat-latest として利用できる。

項目料金(100万トークンあたり)
入力$1.75
キャッシュ入力$0.175
出力$14.00

GPT-5.1系(入力 1.25/出力1.25 / 出力 10.00)からは値上がりしているが、GPT-5.2と同額に設定されている。

参照: GPT-5.3 Instant System Card


GPT-5.4

3月5日に公開されたGPT-5.4は、OpenAIが「プロフェッショナルワーク向けに最も能力が高く効率的なフロンティアモデル」と位置づけるモデル。標準版・Thinking版・Pro版の3バリアント構成でリリースされた。

3バリアントの違い

バリアント用途コンテキスト
GPT-5.4(標準版)汎用API利用。長大なコードベースや法律文書をそのまま流し込める最大100万トークン
GPT-5.4 Thinking推論特化。多段階タスクで思考プロセスを展開する100万トークン
GPT-5.4 Pro最高性能。法律・財務など専門タスク向け100万トークン

100万トークンのコンテキストウィンドウはOpenAIのモデルとして過去最大。ただし272,000トークンを超えるリクエストは通常の2倍の料金になる。

GPT-5.4 ProはMercorのAPEX-Agentsベンチマーク(法律・財務の専門スキルを評価するもの)で首位を記録している。

computer use

GPT-5.4の最大の目玉はネイティブなcomputer use機能。OpenAIの汎用モデルとしては初めて、画面のスクリーンショットを見てマウスやキーボードの操作を返すことができるようになった。AnthropicのClaude computer useと同じアプローチだ。

動作の流れはこうなる。

graph TD
    A[ハーネスがスクリーンショットを撮影] --> B[GPT-5.4に画像を送信]
    B --> C[GPT-5.4が画面を解析]
    C --> D{操作方法を選択}
    D -->|コードモード| E[PythonでPlaywright等の<br/>ライブラリを使ったコードを生成]
    D -->|スクリーンショットモード| F[座標ベースのクリック・<br/>タイプ・スクロール命令を生成]
    E --> G[ハーネスがコードを実行]
    F --> G
    G --> H[操作結果の画面を再撮影]
    H --> B

コードモードではPythonでPlaywright等のブラウザ自動化ライブラリを呼ぶコードを生成し、スクリーンショットモードでは画面の座標を指定してクリックやタイプを直接指示する。どちらのモードでも、操作後の画面をまた撮影してモデルに戻すループで動く。

ベンチマーク結果

computer use関連のベンチマークで軒並み記録を更新した。

ベンチマーク内容GPT-5.4GPT-5.2人間
OSWorld-Verifiedデスクトップ上のGUI操作(OS操作、アプリ利用、複数ステップのワークフロー)75.0%47.3%72.4%
WebArena-VerifiedWebブラウザ上での実タスク遂行(DOM+スクリーンショット両方を利用)67.3%65.4%-
GDPval44職種にわたる知識業務タスク。業界の専門家と同等以上の品質で成果物を作れるかを評価83.0%70.9%-

OSWorld-Verifiedで人間の72.4%を超える75.0%を達成したのが特に大きい。デスクトップ操作タスクでAIが人間のパフォーマンスを上回った初めてのケースだ。GPT-5.2の47.3%から一気に28ポイント近く跳ね上がっている。

ハルシネーション抑制でもGPT-5.2比で個別主張レベルの誤りが33%減、誤りを含む応答全体が18%減と報告されている。

API利用者にとって実用的なのがTool Searchだ。

従来のtool calling(モデルに外部ツールを呼ばせるAPI機能)では、リクエストごとにすべてのツール定義をシステムプロンプトに列挙する必要があった。ツールが5個10個なら問題ないが、数十個になるとツール定義だけで数千〜数万トークンを消費する。エージェントシステムでは特に深刻だった。

Tool Searchの仕組みはこうなる。

graph LR
    A[APIリクエスト時に<br/>軽量なツール一覧だけを渡す] --> B[モデルがタスクを分析]
    B --> C[必要なツールの定義を<br/>動的にルックアップ]
    C --> D[該当ツールの定義だけを<br/>コンテキストに追加]
    D --> E[ツールを実行]

モデルはまず軽量なツール一覧(名前と短い説明のみ)を受け取り、実際にツールを使う段階になって初めて詳細な定義を読み込む。OpenAIのテストでは、ツールが多い環境でトークン使用量が47%削減されたと報告されている。コスト削減だけでなく、不要な定義でコンテキストを汚さないぶんツール選択の精度も上がる。

CoT監視の安全性評価

GPT-5.4 Thinkingには、思考連鎖(Chain-of-Thought, CoT)の制御性に関する新しい安全性評価が追加された。

背景にある懸念はこうだ。推論モデル(thinking model)は内部で思考プロセスを展開してから回答を生成する。もしモデルが自分のCoTを意図的に偽装できるなら、表面上は安全に見えても内部で危険な推論をしている可能性がある。CoTを監視して安全性を担保するアプローチが無効化されてしまう。

OpenAIが同時期に発表した研究 “Reasoning models struggle to control their chains of thought” では、CoT-Controlという評価スイートを使って13種類の推論モデルをテストした。結果、どのモデルもCoTの自己制御スコアが0.1%〜15.4%と極めて低かった。モデルは「CoTの指示に従えていない」と自分で気づいていても、なお従えないという状態だ。

これは安全性の観点では良いニュースになる。CoTを自在に制御できないということは、CoTを偽装して監視を欺くこともできないということだ。つまりCoTの監視はAI安全性の手段として当面は有効に機能する。

参照: Reasoning models struggle to control their chains of thought

API料金

モデル入力キャッシュ入力出力
GPT-5.4(272K以下)$2.50$0.25$15.00
GPT-5.4(272K超)$5.00$0.50$22.50
GPT-5.4 Pro(272K以下)$30.00-$180.00
GPT-5.4 Pro(272K超)$60.00-$270.00

(単位: 100万トークンあたり)

GPT-5.4の標準版はGPT-5.3系(入力 1.75/出力1.75 / 出力 14.00)の約1.4倍。Proはさらに12倍の価格設定で、用途を選ぶ。キャッシュ入力を使えば入力コストを90%削減できるので、同じプロンプトを繰り返し使うエージェント構成ではキャッシュ戦略が重要になる。

参照: Introducing GPT-5.4


Saguaro: Speculative Decodingの直列依存を投機で解消する

Tanishq Kumar、Tri Dao、Avner Mayによる論文「Speculative Speculative Decoding」と、その実装であるSaguaroアルゴリズムが3月にarxivに投稿された。LLMの推論を高速化する手法で、既存のSpeculative Decodingの構造的な限界に正面から取り組んでいる。

Speculative Decodingとは何か

まず前提知識から。LLM(大規模言語モデル)がテキストを生成するとき、通常は1トークンずつ順番に生成する。これを自己回帰デコーディング(autoregressive decoding)と呼ぶ。1トークン生成するたびに巨大なモデル全体を1回動かすので遅い。

Speculative Decoding(投機的デコーディング)はこの遅さを改善する手法だ。小さくて高速な「ドラフトモデル」に複数トークンをまとめて先読みさせ、大きな「検証モデル」で一括検証する。検証は並列処理できるため、ドラフトモデルの予測が当たっていれば大幅に速くなる。

graph TD
    A[ドラフトモデル<br/>小型・高速] -->|複数トークンを<br/>まとめて生成| B[トークン列の候補]
    B --> C[検証モデル<br/>大型・高精度]
    C -->|並列に検証| D{各トークンを<br/>採用 or 棄却}
    D -->|採用されたトークンを確定| E[出力に追加]
    D -->|棄却されたら<br/>そこからやり直し| A

構造的な限界

ただしSpeculative Decodingにはボトルネックがある。ドラフト生成と検証が直列に依存していることだ。

  1. ドラフトモデルがトークン列を生成し終わるまで、検証モデルは待っている
  2. 検証モデルが検証している間、ドラフトモデルは遊んでいる

どちらかが必ずアイドル状態になる。この交互待ちが速度の上限を決めてしまう。

SSDのアイデア

SSD(Speculative Speculative Decoding)の核心は、ドラフトモデルに「検証結果の予測」もやらせることだ。

graph TD
    A[ドラフトモデルが<br/>トークン列を生成] --> B[同時に検証結果を予測<br/>どこまで採用されるか?]
    B --> C[予測に基づいて<br/>次のトークン列も先に準備]

    A --> D[検証モデルが<br/>並行して検証を実行]

    D --> E{予測と実際の<br/>検証結果が一致?}
    E -->|一致| F[準備済みの次のトークン列を<br/>即座に返却]
    E -->|不一致| G[通常のSpeculative Decoding<br/>にフォールバック]

    F --> H[ドラフト生成の<br/>待ち時間が実質ゼロに]

ドラフトモデルは「検証モデルはおそらくここまで採用するだろう」と予測し、その前提で次のトークン列を先に準備しておく。検証が終わって予測通りだったら、準備済みのトークン列をそのまま返せる。ドラフト生成のオーバーヘッドが消えるわけだ。

3つの課題とSaguaroの解法

論文ではSSDを実装するうえでの3つの課題を特定し、それぞれ解法を示している。これらを組み合わせたものがSaguaroアルゴリズムだ。

課題内容Saguaroの解法
検証結果の予測精度検証モデルがどこまで採用するかを正確に予測する必要があるドラフトモデルの出力確率が最も高いトークンを使って「ボーナストークン」(検証後に追加されるトークン)を予測。精度は最大90%
キャッシュヒット率と採用率のトレードオフ検証結果の予測精度を上げようとすると、ドラフト自体の品質が下がる場合がある両者のバランスを取るサンプリングアルゴリズムを開発
予測失敗時のフォールバック予測が外れたときにどう回復するか。最適な戦略はバッチサイズで変わるバッチサイズに応じてフォールバック戦略を切り替え。大バッチでもSpeculative Decoding比20%の高速化を維持

性能

オープンソースの推論エンジンでの実験結果はこうなっている。

比較対象高速化倍率
最適化済みSpeculative Decoding2倍
標準的な自己回帰デコーディング5倍

さらにスループット(単位時間あたりの処理量)とレイテンシ(応答までの遅延)のパレートフロンティア(両方を同時に改善できる限界線)を、あらゆるバッチサイズで従来手法より押し上げたと報告されている。

著者のTri DaoはFlashAttention(Transformerの注意機構を高速化するアルゴリズム)の開発者として知られる研究者だ。SSDが本番環境で動くようになれば、API料金の低下、エッジデバイス(スマートフォンやIoT機器など計算資源が限られた端末)へのLLMデプロイ、リアルタイムアプリケーションのレイテンシ改善に直結する。

論文: Speculative Speculative Decoding (arxiv.org/abs/2603.03251)