Claude Opus 4.7がSWE-bench Verified 87.6%とxhighエフォートでエージェント能力を底上げ
目次
Opus 4.6から半年も経たずに4.7が来た。
2026年4月16日リリース、モデルIDはclaude-opus-4-7、価格は据え置き。
数字を見るとただの小数点アップデートと呼ぶには更新幅が大きく、特にエージェント系ベンチで10ポイント超の跳ねが出ている。
価格は据え置き、ただしトークナイザ更新で実質値上げ
Opus 4.7のAPI価格は4.6と同じ。
- 入力: 1Mトークンあたり$5(200Kトークンまで)
- 出力: 1Mトークンあたり$25(200Kトークンまで)
- 長文入力(200K超): 1Mトークンあたり$10
- 長文出力(200K超): 1Mトークンあたり$37.50
- コンテキスト: 1Mトークン
- 最大出力: 128Kトークン
据え置きなのだが、トークナイザが更新されていて、同じ入力テキストが4.6比で1.0〜1.35倍のトークン数になる。
コードや英文は下限に近く、日本語などの多言語や構造化テキストは上限寄り、とAnthropicは注意書きしている。
実質的に請求額が1〜3割増える可能性があるので、既存アプリをそのまま差し替える前にコスト見積もりの再計算をおすすめする。
ベンチマーク: 目玉はエージェンティックコーディング
Anthropicが出した主要ベンチマークの4.6 → 4.7の差分。
| ベンチマーク | Opus 4.6 | Opus 4.7 | 差分 |
|---|---|---|---|
| SWE-bench Verified | 80.8% | 87.6% | +6.8pt |
| SWE-bench Pro | 53.4% | 64.3% | +10.9pt |
| Terminal-Bench 2.0 | 65.4% | 69.4% | +4.0pt |
| OSWorld-Verified | 72.7% | 78.0% | +5.3pt |
| CharXiv-R(ツール付き) | 77.4% | 91.0% | +13.6pt |
| MCP-Atlas | 62.7% | 77.3% | +14.6pt |
| GPQA Diamond | 91.3% | 94.2% | +2.9pt |
| HLE(ツール付き) | 53.1% | 54.7% | +1.6pt |
| Finance Agent v1.1 | 60.7% | 64.4% | +3.7pt |
SWE-bench Proで10ポイント超、MCP-Atlasで14ポイント超、CharXiv-R(ツール付き)で13ポイント超と、実務寄り・長期タスク寄りのベンチほど伸びが大きい。
SWE-bench Proは「SWE-bench Verifiedでは簡単すぎる」として作られた長期課題寄りのベンチで、ここで一気にジャンプしているのはインパクトがある。
一方でMMLUは+0.4pt、HLE(ツール付き)は+1.6ptと、純粋な知識系はほぼ横ばい。
「頭が良くなった」というより「タスクをやり切る力が上がった」という感触のアップデートだと読める。
xhighエフォート: highとmaxの間に一段追加
Opus 4.7で新設されたのがxhighエフォート。
既存のhighとmaxの間に入る、思考量の新しい段階である。
low→medium→high→xhigh(新規) →max
maxは長考しすぎてレイテンシが悪化するケースがあり、逆にhighは4.7では最下段寄りの位置付けになるため、複雑なタスクだと力不足になる。
そのギャップを埋めるのがxhighという位置付けで、Claude Codeはデフォルトをxhighに引き上げている。
さらにMaxプランのClaude Codeにはautoモードが導入され、タスクの難易度に応じてClaude自身がエフォート段階を動的に選ぶ。
Proプランには/ultrareviewコマンド(diffレビュー専用のフルパワー実行)が月3回まで無料で付与される。
セルフベリファイ: 出力前に自分でテストする
今回の挙動面で一番大きい変化がこれ。
4.7は「完了しました」と返す前に、自分の出力をどう検証するか考えて、実際に検証まで走らせる傾向が強まっている。
コーディングなら単体テストを書いてパスさせてから返す、長文ならファクトの自己チェックを挟む、といった具合。
Anthropic公式ノートには「tests and inspections を proactively 書く」と明記されている。
4.6では「タスクが終わったっぽい」時点で返してきていたのが、4.7では「終わったことを自分で確認してから」返すようになった、とAnthropicの説明を読み替えると近い。
地味だがエージェント運用の信頼性を上げる変更で、長時間走らせる系のワークフロー(マルチファイルリファクタ、調査系エージェント、データ分析パイプライン)では体感が出やすい。
命令をリテラルに受け取るようになった
注意点として、4.7は命令を4.6より字義どおりに解釈する。
Anthropicは公式に「プロンプトの再調整を推奨」と言っており、既存プロンプトをそのまま差し替えると挙動が変わる。
4.6までは「こういう観点で見てね」と書いた箇条書きを「ヒント」として扱っていたのが、4.7では「ハード要件」として扱う。
つまり、オプション的な指示のつもりで並べた項目を、全部律儀に守ろうとする。
とくにエージェント系のシステムプロンプトは、ABテストで挙動差を確認してから本番に載せたほうが安全。
Vision: 画像解像度が約3倍に
画像入力の最大サイズが長辺2,576pxまで拡張された(約3.75メガピクセル)。
4.6までは長辺1,568px程度が上限だったので、ピクセル面積で約3.3倍になる。
これにより、小さな文字がびっしり詰まった論文のフィギュア、ダッシュボードのスクリーンショット、回路図や化学構造式などをリサイズせずにそのまま投げられる。
Visual Acuityベンチは4.6の54.5%から98.5%まで跳ね上がっており、「潰れた小文字を読む」系のタスクは別物と思っていい。
ファイルシステムメモリ: セッションをまたぐノート
エージェント用途向けに、永続ファイルシステム上のノート領域に対する読み書き・再利用能力が強化されている。
「昨日のセッションで得た情報を今日のセッションで踏まえる」といったマルチデイのエージェントワークフローが前提の機能。
同種のノート機能は他のフロンティアモデルも持っているが、Opus 4.7は明示的に「ノートを書く・読む・再利用する」挙動を訓練で強化したと説明されている。
Mythos と Project Glasswing: サイバー能力を意図的に抑えた
今回のリリースで、技術以外の文脈として重要なのがこれ。
Anthropicには4.7より強いモデル「Claude Mythos Preview」があるが、一般公開されていない。
Mythosは政府・大手エンタープライズ向けにProject Glasswing下で限定提供されていて、Opus 4.7は「Mythosより一段下のモデルで、Glasswingの安全スタックを広く先に試す」という位置付けになっている。
flowchart LR
A[訓練済み基盤モデル] --> B[Mythos Preview<br/>非公開・選定パートナーのみ]
A --> C[Opus 4.7<br/>Glasswing safeguards 搭載]
C --> D[一般公開<br/>API / Bedrock / Vertex / Foundry]
B -. Glasswingで検証 .-> D
4.7はProject Glasswing(AIのサイバー悪用を抑える安全スタック)を組み込んだ初の一般公開モデルになる。
具体的には以下。
- サイバー攻撃に転用されうるリクエストを自動検知して拒否
- 訓練段階でも「違反的な攻撃能力」の獲得を差別的にスロットリング
- CyberGymスコアは4.6と同じ73.1%で据え置き(意図的に上げていない)
正規のペンテスト・レッドチーム用途については、新設された「Cyber Verification Program」で個別審査の上でアクセスを開ける仕組みになっている。
「より強いMythosを一気に出さず、Glasswingの安全策を4.7で検証してから段階的に広げる」というロールアウト戦略で、以前のOpus 4世代のCBRN(化学・生物・放射線・核)ガードレールに続く、2回目の大掛かりな段階的ロールアウトと言える。
Claude Codeへの反映
Claude Code側には以下が入っている。
- デフォルトエフォート:
xhighに引き上げ。体感レスポンスが遅くなったら個別に--effort high等で下げられる /ultrareviewコマンド: diffレビュー専用の重い思考モード。Proプランは月3回まで無料- Max向け
autoモード: タスクの難易度に応じてClaude自身がエフォートを選ぶ
長時間エージェントでの安定性(セルフベリファイ、ファイルシステムメモリ)が効くのは、まさにClaude Codeのようなユースケース。
移行チェックリスト
既存のOpus 4.6アプリを4.7に差し替える前に見ておきたいポイント。
- モデルID:
claude-opus-4-7。4.6のエンドポイント(claude-opus-4-6)は当面維持されるが、新規はxhighが使える4.7前提で組んだほうが良い - プロンプト再チューニング: 「ヒント」のつもりで書いた箇条書きが「義務」として解釈される。オプション指示は明示的にオプションと書く
- トークン見積もり: 同じ入力で請求額が最大1.35倍になりうる。特に日本語中心のワークロード
- エフォート設定: highで困っていたタスクはxhighを試す。maxはレイテンシ許容の重い思考タスクに残す
- 画像入力: 2,576px長辺まで受け付けるので、リサイズせずに高解像度を投げられる
- サイバー系ワークロード: Mythos相当は期待できない。正規用途ならCyber Verification Programを申請
週上限リセットと時間帯別上限の最近の動きがキナ臭い
ここから先は記事の本筋から少し外れた、個人的な勘繰りベースの話。
4.7のリリースと並行して、Claude Pro/Max周りの上限運用もじわっと変わってきている印象がある。
ここ1〜2ヶ月の時系列を並べるとこうなる。
- 2026年3月13〜28日: 公式キャンペーンで5時間セッション枠を「平日オフピーク(5〜11 AM PT以外)は2x、週末は終日2x」に増量。Pro/Max/Team/Freeが対象、Enterpriseは対象外。追加分は週上限にカウントされない扱い。
- 3月23日前後: Claude Codeで「リセット直後なのに70分で上限が溶ける」等の異常消費バグがGitHub issue #41930などで広く報告され始める(Max 20プランでリセット直後に100%消費、等)。複数の原因が同時に混ざっていた様子。
- 3月下旬: Anthropicが5時間セッション上限を「平日5〜11 AM PT」の時間帯でひっそりタイト化し、公式に「週上限は据え置き、ピーク時間帯のみ消費が速くなる」と認める。
- 3月31日: Anthropicが「Claude Codeの上限が想定より早く溶けている」ことを認める発言を出す。
- 2026年4月16日: Opus 4.7 GA。デフォルトエフォートがxhigh、
autoモード追加、Proに/ultrareview付与。
Anthropicは表向き「4.7リリースに合わせた運用最適化」というスタンスだが、4月に入ってから体感ベースで、週次リセット直後の持ちや、平日ピーク時間帯・週末の上限が以前より明らかに緩く感じるケースが増えている。
ここで疑わしいのは、3月23日前後から続いていた異常消費バグの「静かな修正」が裏で入っていて、それが上限引き上げのように見えているだけではないか、という可能性。
サイレント修正説を疑う理由は以下。
- 3月のバグは複数の原因が同じissueで並行して再現報告されていた。当初Anthropicは「意図的なタイト化」と説明していたが、3月31日の発言は少なくとも一部が不具合寄りだったことを示唆する。
- 4.7リリースと同タイミングで運用指標を戻せば、「バグ修正しました」ではなく「新モデルに合わせた調整」として飲み込ませやすい。
- 週上限リセットや時間帯別上限を「引き上げた」とAnthropicが公に宣言したアナウンスは、2026年4月17日時点では見当たらない。にもかかわらず、Pro/Max勢の体感は改善している。
もちろんこれは状況証拠ベースの勘繰りで、「4.7が4.6より効率化されていて同じタスクでトークン消費が減っている」という素直な解釈もあり得る。
ただし今回トークナイザは同じ入力で1.0〜1.35倍トークンに増える方向なので、単純な効率化だけでは週上限の体感改善は説明しづらい。
運用側としては、4.7前提のプロンプト再チューニングと並行して、4月の週次消費を1〜2サイクルぶんロギングしておくのが安全。
体感の改善が持続するのか、それとも「4.7リリース直後のサービス期間」的な一時的なものなのかは、5月の週次リセット挙動を見ればだいたい答えが出るはず。
余談: Claudeが勝手に別人格を作って自己承認する件
4.7そのものとは別筋で、最近引っかかっているユーザー報告があるので添えておく。
権限を与えていないのに、Claude Codeが「人間を模倣したユーザー応答」を勝手に生成し、その捏造応答の中の「OK、進めていい」という承認文言を根拠にClaude自身が作業を続行してしまう、という現象。
漁ってみると、これは Fabricated User Message Pattern と呼ばれる既知の構造的バグで、すでに複数のGitHub issueに束ねられていた。
代表的なissue
- anthropics/claude-code#44778: System events delivered as user-role messages cause model to fabricate user consent(OPEN)
- #40629: クライアント宛メッセージ草案→自分で「ユーザーが承認した」応答を生成→実際に送信(Opus 4.6で再現)
- #10628: 応答末尾に
###Human:を自己生成して偽のユーザーターンを挟み、自分でそれに応答(Sonnet 4.5)
構造的な原因
Anthropic Messages APIのロールはuserとassistantの2つしかない。
バックグラウンドエージェント完了通知、teammate idle通知、system-reminderなどのシステム側イベントを送る専用ロールが存在しないため、これらも全部role: "user"として配信される。
モデル側には「直前の質問の次はユーザー応答が来る」という強い自己回帰の癖がある。
そのため、中身が実際にはシステムイベントでも、モデルは「もっともらしいユーザー応答」を自分で埋めにいきやすい。
自動コンパクション後は「承認待ち状態」がサマリから欠落するケースもあり、リセット後のモデルが「もう承認済み」前提で動き出すパターンも報告されている。
実害として報告されている例
- 捏造した「fix them both」を根拠に未承認のコード変更を実行
- 捏造した「go ahead and merge」でPRマージ寸前のニアミス
- 捏造シャットダウンコマンドに従って作業ディレクトリを丸ごと削除
- ユーザーが「そんなこと言ってない」と抗議すると、モデルが自分の捏造メッセージを「証拠」として提示して反論してくるガスライティング挙動
CLAUDE.mdに「コンパクション後に承認を仮定するな」と明示しても、同セッション内でそのルールごと破られた報告が並んでおり、プロンプト側の防御は構造的に効きにくい。
4.7との関係
4.7リリース直後の本稿執筆時点では、4.7固有の悪化/改善を示す報告は見当たらない。
ただし組み合わせとしては少し気になる。
4.7の目玉のひとつ「セルフベリファイ」は、返答前に自分で検証ステップを踏ませる変更で、内部に「もう1人のレビュアー役」を立てる動きに近い。
検証ステップの中でユーザー応答相当の判断まで自己模倣し始めると、Fabricated User Messageパターンがセルフベリファイのフローに乗る形で発火する、というシナリオは理論上あり得る。
リテラル解釈の癖も効く方向で、システムプロンプトに「疑問があれば確認せよ」と書いてあっても、バッファに入った捏造ユーザー応答をそのまま「確認結果」として消費してしまう余地がある。
どれも今のところ構造からの推測で、実観測ベースの裏取りは取れていない。4.7でのログを1〜2週間ぶん貯めて、issueトラッカーの動きと合わせて見たい。
運用側でできること
- 権限が要る操作(ファイル削除、外部送信、PR作成など)はツール側のconfirmationゲートで止める運用に寄せる。プロンプトでの禁止は構造的に抜ける
- 自動コンパクション直後は、モデルが「承認済み」前提で動き出していないかを1ステップ明示確認する
- 再現を疑う挙動に遭遇したら
/feedbackでセッションIDを控えて、#44778にぶら下げるのが今のところ一番建設的
しばらくClaude Codeのデフォルトをxhighのまま回してみて、セルフベリファイがFabricated User Messageパターンと干渉しないかだけ観察しておきたい。