Claude 1Mコンテキストウィンドウが正式GA、追加料金なしで標準APIに統合
2026年3月13日、AnthropicがClaude Opus 4.6とSonnet 4.6の1Mトークンコンテキストウィンドウを正式にGA(一般提供)とした。
「1Mトークン」はざっくり75万語、日本語だと文庫本15冊くらいに相当する。これまではベータ扱いで、APIで使うには専用のヘッダーが必要だったり、長コンテキストの追加料金がかかったりしていた。GAでこれらの制約が撤廃された。
ここ1ヶ月ほどのClaude API・Claude Code周りのアップデートが怒涛だったので、1M GA単体の話だけでなく、関連する機能追加も併せて扱う。
1M GAの前後で何が変わったか
APIの変更点
| 項目 | ベータ期間中 | GA後 |
|---|---|---|
| betaヘッダー | 200K超で anthropic-beta: long-context-2025-01-01 必須 | 不要(既存コード変更なしでそのまま動く) |
| レート制限 | 長コンテキスト専用の制限枠 | 通常のアカウント制限に統合 |
| 画像・PDF上限 | 1リクエストあたり100件 | 600件に拡大(6倍) |
| 追加料金 | Sonnet 4.5/4は長コンテキスト割増あり | Opus 4.6/Sonnet 4.6は追加料金なし |
| 対応プラットフォーム | Claude API | Claude API + Azure Foundry + Vertex AI |
Claude Codeの変更点
Claude Codeでも1Mコンテキストが使えるようになった。ただし対象はMax・Team・Enterpriseプランのユーザーで、Opus 4.6使用時に自動的に有効になる。
実際に使ってみると分かるが、一番体感できるのはコンパクション(コンテキスト要約)の減少だ。あるユーザーの報告ではコンパクションイベントが15%減少したという。コンパクションは会話が長くなると自動的にコンテキストを要約して圧縮する仕組みで、便利だが情報のロスが避けられない。そもそもコンパクションが走らなくなるのは、エージェントが長時間の作業で初期の指示を忘れにくくなることを意味する。
自分のブログもClaude Codeで運用していて、トークン管理ガイドで書いたような「CLAUDE.mdの肥大化対策」や「コンテキストの状態外部化」といったテクニックを使ってきた。1M GAでこうした工夫の一部が不要になる可能性はある。ただし、1Mトークンを毎回フルに使えばコストは跳ね上がるので、セッション管理や権限設定といった運用面の最適化は引き続き重要。
旧モデルのベータ制約は残っている
Opus 4.6/Sonnet 4.6以外のモデルでは、1Mコンテキストは引き続きベータ扱い。
| モデル | 1Mコンテキストの状態 | betaヘッダー | 追加料金 |
|---|---|---|---|
| Opus 4.6 | GA | 不要 | なし |
| Sonnet 4.6 | GA | 不要 | なし |
| Sonnet 4.5 | ベータ | 必要 | あり |
| Sonnet 4 | ベータ | 必要 | あり |
Opus 4.5以前のOpusモデルはそもそも200Kまでしか対応していない。
料金設計
長コンテキスト利用に追加料金が発生しない。900Kトークンのリクエストも9Kトークンのリクエストも、同じper-tokenレートで課金される。
| モデル | 入力 (per M tokens) | 出力 (per M tokens) |
|---|---|---|
| Opus 4.6 | $5 | $25 |
| Sonnet 4.6 | $3 | $15 |
フルウィンドウをOpus 4.6で埋めると入力だけで3。決して安くはないが、他のプロバイダーが長コンテキストに割増料金を設けている中、Anthropicはフラットレートを選んだ。
参考までに、Sonnet 4.6のリリース記事で書いた通り、Sonnet 4.6はOpus 4.5比で1/5の価格でコーディング性能が同等以上。長コンテキストもフラットレートとなると、エージェント用途のコスパがさらに際立つ。
MRCR v2ベンチマーク
Opus 4.6はMRCR v2(Multi-Hop Reading Comprehension and Retrieval)で78.3%を達成。最大コンテキスト長での評価としてフロンティアモデル中で最高スコア。
MRCR v2はマルチホップ検索タスクで構成されている。「Aに書いてあるXが、Bに書いてあるYとどう関係するか」のように、複数箇所の情報を組み合わせて初めて答えられる問題だ。1Mトークン全体を使いつつ精度を維持するのは、単純なニードル・イン・ア・ヘイスタック(干し草の中から針を見つける)検索よりはるかに難しい。
ニードル・イン・ア・ヘイスタックは「大量テキストの中から特定の情報を見つけられるか」を測るが、MRCR v2は「見つけた情報同士を関連付けて推論できるか」を測る。実務で求められるのは後者のほうが多い。
1Mコンテキストの進化タイムライン
1Mコンテキストがどう広がってきたかを振り返る。
graph TD
A["2025年8月<br/>Sonnet 4 ベータ開始"] --> B["2025年8月下旬<br/>Vertex AI対応"]
B --> C["2025年11月<br/>Opus 4.5 リリース<br/>200Kのまま"]
C --> D["2026年2月5日<br/>Opus 4.6 リリース<br/>1Mベータ対応"]
D --> E["2026年2月17日<br/>Sonnet 4.6 リリース<br/>1Mベータ対応"]
E --> F["2026年3月13日<br/>Opus 4.6 / Sonnet 4.6<br/>正式GA"]
F --> G["betaヘッダー不要<br/>追加料金なし<br/>メディア上限600"]
約7ヶ月のベータ期間を経てのGA化。Opus 4.5(2025年11月)はまだ200K止まりだったが、Opus 4.6で一気に1M対応した。
1Mコンテキストが効く場面
従来の200Kでもそれなりに長い入力は扱えたが、1Mになるとユースケースが質的に変わる。
| 用途 | 内容 |
|---|---|
| コードベース全体の投入 | プロジェクト全体をプロンプトに渡してリファクタリングやレビューを依頼 |
| 大量ドキュメントの一括分析 | 契約書、論文、仕様書を丸ごと投入して横断的に質問 |
| エージェントの長時間実行 | ツール呼び出し・観察・推論のトレース全体を保持したまま継続処理 |
| 画像・PDFの大量処理 | 上限が600に拡大されたことで、数百ページの資料を一度に処理可能 |
2月〜3月にGA化された機能群
1M GAだけでなく、2026年2月〜3月にかけてClaude APIの機能が大量にGA化された。ほとんど知られていないものもあるが、1Mコンテキストと組み合わせると面白い。
Opus 4.6の新機能(2月5日)
Opus 4.6のリリース自体が多くの変更を含んでいた。
- 適応的思考(Adaptive Thinking):
thinking: {type: "adaptive"}で思考の深さをモデルが自動調整する。手動でbudget_tokensを指定する方式は非推奨になった - ファストモード: 出力トークン生成が最大2.5倍高速になるモード。リサーチプレビュー段階で、プレミアム価格が適用される
- データレジデンシー制御:
inference_geoパラメータで推論実行リージョンを指定可能。US限定は1.1倍の料金 - プリフィル非対応: アシスタントメッセージの先頭を指定して出力を誘導するテクニック(プリフィル)が使えなくなった
effortパラメータ(2月5日 GA)
budget_tokens の後継。思考の深さを low / medium / high のように簡単に制御できる。Opus 4.6の適応的思考と合わせて、従来のようなトークン数の手動チューニングが不要になった。
コンパクションAPI(2月5日 ベータ)
サーバーサイドでのコンテキスト要約機能。コンテキストウィンドウの上限に近づくと、古い会話を自動要約して圧縮する。Opus 4.6で利用可能。1Mコンテキストでも足りないほど長い会話(エージェントの数時間にわたるセッションなど)で効く。
構造化出力(1月29日 GA)
レスポンスのJSONスキーマ準拠を保証する機能。output_config.format で指定する。Claude APIでは1月にGAとなり、betaヘッダーが不要になった。
Sonnet 4.6リリースと同時GA(2月17日)
Sonnet 4.6のリリースに合わせて、以下が一斉にGA化された。
| 機能 | 概要 |
|---|---|
| Web検索ツール | Claude APIにビルトインのWeb検索。動的フィルタリング機能が追加され、検索結果をコード実行でフィルタリングしてからコンテキストウィンドウに入れることで、トークン消費を抑えつつ精度を上げられる |
| Webフェッチツール | 指定URLのコンテンツを取得してClaude内で処理する |
| コード実行ツール | サンドボックス環境でのコード実行。Web検索・Webフェッチと併用する場合は無料になった |
| プログラマティックツール呼び出し | Claudeがツールを逐次呼び出す代わりに、Pythonコードを書いて複数ツールを一括実行する。トークン消費が37%削減されるベンチマーク結果がある |
| ツール検索ツール | 50以上のツール定義をすべてプロンプトに入れる代わりに、必要なときだけ動的に読み込む。トークン消費を85%削減(72K→8.7K)。MCP経由で大量のツールを接続しているケースで特に有効 |
| メモリツール | 会話をまたいで情報を保存・参照する |
| 細粒度ツールストリーミング | ツール使用パラメータをバッファリングなしでストリーミング |
これらは2025年後半にベータとして順次リリースされていたものだが、大半のユーザーはベータのままだと気づかないか、betaヘッダーの存在を知らずに使っていなかった可能性がある。GA化でbetaヘッダーが不要になり、標準APIの一部として使えるようになった。
自動キャッシング(2月19日)
cache_control フィールド1つで自動的に最適なキャッシュポイントを設定する機能。従来は手動でキャッシュブレークポイントを管理する必要があったが、会話が成長するにつれてキャッシュポイントが自動的に前方に移動する。長コンテキストのリクエストではキャッシュの効果が大きいので、1M GAとの相性がいい。
旧モデルの廃止スケジュール
1M GAと並行して、旧モデルの廃止が進んでいる。
| モデル | 状態 |
|---|---|
| Sonnet 3.7 | 2026年2月19日に廃止済み |
| Haiku 3.5 | 2026年2月19日に廃止済み |
| Opus 3 | 2026年1月5日に廃止済み |
| Haiku 3 | 2026年4月19日に廃止予定 |
Sonnet 3.5以前のモデルはすでにすべて廃止されている。研究者向けには外部研究者アクセスプログラム経由で引き続き利用可能。
1M context is now generally available for Opus 4.6 and Sonnet 4.6 | Claude Claude Developer Platform - Release Notes