技術 約8分で読めます

Claude 1Mコンテキストウィンドウが正式GA、追加料金なしで標準APIに統合

2026年3月13日、AnthropicがClaude Opus 4.6とSonnet 4.6の1Mトークンコンテキストウィンドウを正式にGA(一般提供)とした。

「1Mトークン」はざっくり75万語、日本語だと文庫本15冊くらいに相当する。これまではベータ扱いで、APIで使うには専用のヘッダーが必要だったり、長コンテキストの追加料金がかかったりしていた。GAでこれらの制約が撤廃された。

ここ1ヶ月ほどのClaude API・Claude Code周りのアップデートが怒涛だったので、1M GA単体の話だけでなく、関連する機能追加も併せて扱う。

1M GAの前後で何が変わったか

APIの変更点

項目ベータ期間中GA後
betaヘッダー200K超で anthropic-beta: long-context-2025-01-01 必須不要(既存コード変更なしでそのまま動く)
レート制限長コンテキスト専用の制限枠通常のアカウント制限に統合
画像・PDF上限1リクエストあたり100件600件に拡大(6倍)
追加料金Sonnet 4.5/4は長コンテキスト割増ありOpus 4.6/Sonnet 4.6は追加料金なし
対応プラットフォームClaude APIClaude API + Azure Foundry + Vertex AI

Claude Codeの変更点

Claude Codeでも1Mコンテキストが使えるようになった。ただし対象はMax・Team・Enterpriseプランのユーザーで、Opus 4.6使用時に自動的に有効になる。

実際に使ってみると分かるが、一番体感できるのはコンパクション(コンテキスト要約)の減少だ。あるユーザーの報告ではコンパクションイベントが15%減少したという。コンパクションは会話が長くなると自動的にコンテキストを要約して圧縮する仕組みで、便利だが情報のロスが避けられない。そもそもコンパクションが走らなくなるのは、エージェントが長時間の作業で初期の指示を忘れにくくなることを意味する。

自分のブログもClaude Codeで運用していて、トークン管理ガイドで書いたような「CLAUDE.mdの肥大化対策」や「コンテキストの状態外部化」といったテクニックを使ってきた。1M GAでこうした工夫の一部が不要になる可能性はある。ただし、1Mトークンを毎回フルに使えばコストは跳ね上がるので、セッション管理権限設定といった運用面の最適化は引き続き重要。

旧モデルのベータ制約は残っている

Opus 4.6/Sonnet 4.6以外のモデルでは、1Mコンテキストは引き続きベータ扱い。

モデル1Mコンテキストの状態betaヘッダー追加料金
Opus 4.6GA不要なし
Sonnet 4.6GA不要なし
Sonnet 4.5ベータ必要あり
Sonnet 4ベータ必要あり

Opus 4.5以前のOpusモデルはそもそも200Kまでしか対応していない。

料金設計

長コンテキスト利用に追加料金が発生しない。900Kトークンのリクエストも9Kトークンのリクエストも、同じper-tokenレートで課金される。

モデル入力 (per M tokens)出力 (per M tokens)
Opus 4.6$5$25
Sonnet 4.6$3$15

フルウィンドウをOpus 4.6で埋めると入力だけで5Sonnet4.6なら5、Sonnet 4.6なら3。決して安くはないが、他のプロバイダーが長コンテキストに割増料金を設けている中、Anthropicはフラットレートを選んだ。

参考までに、Sonnet 4.6のリリース記事で書いた通り、Sonnet 4.6はOpus 4.5比で1/5の価格でコーディング性能が同等以上。長コンテキストもフラットレートとなると、エージェント用途のコスパがさらに際立つ。

MRCR v2ベンチマーク

Opus 4.6はMRCR v2(Multi-Hop Reading Comprehension and Retrieval)で78.3%を達成。最大コンテキスト長での評価としてフロンティアモデル中で最高スコア。

MRCR v2はマルチホップ検索タスクで構成されている。「Aに書いてあるXが、Bに書いてあるYとどう関係するか」のように、複数箇所の情報を組み合わせて初めて答えられる問題だ。1Mトークン全体を使いつつ精度を維持するのは、単純なニードル・イン・ア・ヘイスタック(干し草の中から針を見つける)検索よりはるかに難しい。

ニードル・イン・ア・ヘイスタックは「大量テキストの中から特定の情報を見つけられるか」を測るが、MRCR v2は「見つけた情報同士を関連付けて推論できるか」を測る。実務で求められるのは後者のほうが多い。

1Mコンテキストの進化タイムライン

1Mコンテキストがどう広がってきたかを振り返る。

graph TD
    A["2025年8月<br/>Sonnet 4 ベータ開始"] --> B["2025年8月下旬<br/>Vertex AI対応"]
    B --> C["2025年11月<br/>Opus 4.5 リリース<br/>200Kのまま"]
    C --> D["2026年2月5日<br/>Opus 4.6 リリース<br/>1Mベータ対応"]
    D --> E["2026年2月17日<br/>Sonnet 4.6 リリース<br/>1Mベータ対応"]
    E --> F["2026年3月13日<br/>Opus 4.6 / Sonnet 4.6<br/>正式GA"]
    F --> G["betaヘッダー不要<br/>追加料金なし<br/>メディア上限600"]

約7ヶ月のベータ期間を経てのGA化。Opus 4.5(2025年11月)はまだ200K止まりだったが、Opus 4.6で一気に1M対応した。

1Mコンテキストが効く場面

従来の200Kでもそれなりに長い入力は扱えたが、1Mになるとユースケースが質的に変わる。

用途内容
コードベース全体の投入プロジェクト全体をプロンプトに渡してリファクタリングやレビューを依頼
大量ドキュメントの一括分析契約書、論文、仕様書を丸ごと投入して横断的に質問
エージェントの長時間実行ツール呼び出し・観察・推論のトレース全体を保持したまま継続処理
画像・PDFの大量処理上限が600に拡大されたことで、数百ページの資料を一度に処理可能

2月〜3月にGA化された機能群

1M GAだけでなく、2026年2月〜3月にかけてClaude APIの機能が大量にGA化された。ほとんど知られていないものもあるが、1Mコンテキストと組み合わせると面白い。

Opus 4.6の新機能(2月5日)

Opus 4.6のリリース自体が多くの変更を含んでいた。

  • 適応的思考(Adaptive Thinking): thinking: {type: "adaptive"} で思考の深さをモデルが自動調整する。手動で budget_tokens を指定する方式は非推奨になった
  • ファストモード: 出力トークン生成が最大2.5倍高速になるモード。リサーチプレビュー段階で、プレミアム価格が適用される
  • データレジデンシー制御: inference_geo パラメータで推論実行リージョンを指定可能。US限定は1.1倍の料金
  • プリフィル非対応: アシスタントメッセージの先頭を指定して出力を誘導するテクニック(プリフィル)が使えなくなった

effortパラメータ(2月5日 GA)

budget_tokens の後継。思考の深さを low / medium / high のように簡単に制御できる。Opus 4.6の適応的思考と合わせて、従来のようなトークン数の手動チューニングが不要になった。

コンパクションAPI(2月5日 ベータ)

サーバーサイドでのコンテキスト要約機能。コンテキストウィンドウの上限に近づくと、古い会話を自動要約して圧縮する。Opus 4.6で利用可能。1Mコンテキストでも足りないほど長い会話(エージェントの数時間にわたるセッションなど)で効く。

構造化出力(1月29日 GA)

レスポンスのJSONスキーマ準拠を保証する機能。output_config.format で指定する。Claude APIでは1月にGAとなり、betaヘッダーが不要になった。

Sonnet 4.6リリースと同時GA(2月17日)

Sonnet 4.6のリリースに合わせて、以下が一斉にGA化された。

機能概要
Web検索ツールClaude APIにビルトインのWeb検索。動的フィルタリング機能が追加され、検索結果をコード実行でフィルタリングしてからコンテキストウィンドウに入れることで、トークン消費を抑えつつ精度を上げられる
Webフェッチツール指定URLのコンテンツを取得してClaude内で処理する
コード実行ツールサンドボックス環境でのコード実行。Web検索・Webフェッチと併用する場合は無料になった
プログラマティックツール呼び出しClaudeがツールを逐次呼び出す代わりに、Pythonコードを書いて複数ツールを一括実行する。トークン消費が37%削減されるベンチマーク結果がある
ツール検索ツール50以上のツール定義をすべてプロンプトに入れる代わりに、必要なときだけ動的に読み込む。トークン消費を85%削減(72K→8.7K)。MCP経由で大量のツールを接続しているケースで特に有効
メモリツール会話をまたいで情報を保存・参照する
細粒度ツールストリーミングツール使用パラメータをバッファリングなしでストリーミング

これらは2025年後半にベータとして順次リリースされていたものだが、大半のユーザーはベータのままだと気づかないか、betaヘッダーの存在を知らずに使っていなかった可能性がある。GA化でbetaヘッダーが不要になり、標準APIの一部として使えるようになった。

自動キャッシング(2月19日)

cache_control フィールド1つで自動的に最適なキャッシュポイントを設定する機能。従来は手動でキャッシュブレークポイントを管理する必要があったが、会話が成長するにつれてキャッシュポイントが自動的に前方に移動する。長コンテキストのリクエストではキャッシュの効果が大きいので、1M GAとの相性がいい。

旧モデルの廃止スケジュール

1M GAと並行して、旧モデルの廃止が進んでいる。

モデル状態
Sonnet 3.72026年2月19日に廃止済み
Haiku 3.52026年2月19日に廃止済み
Opus 32026年1月5日に廃止済み
Haiku 32026年4月19日に廃止予定

Sonnet 3.5以前のモデルはすでにすべて廃止されている。研究者向けには外部研究者アクセスプログラム経由で引き続き利用可能。

1M context is now generally available for Opus 4.6 and Sonnet 4.6 | Claude Claude Developer Platform - Release Notes