Claude Sonnet 4.6リリース - コーディング性能でOpus 4.5を超える場面も
Anthropicが2026年2月17日、Claude Sonnet 4.6をリリースした。約4ヶ月のアップデートサイクルを維持した形で、コーディング、コンピュータ使用、長文脈推論の全方面でアップグレードされている。
Claudeモデルの系譜
ここ半年のClaude モデルリリースを振り返ると、Anthropicの戦略が見える。
| 時期 | モデル | 位置づけ |
|---|---|---|
| 2025年11月 | Opus 4.5 | 最高知能モデル |
| 2025年10月 | Sonnet 4.5 | コスパ重視の主力モデル |
| 2026年2月 | Sonnet 4.6 | Sonnet 4.5の後継、一部でOpus超え |
| 2026年2月 | Opus 4.6 | 深い推論タスク向けフロンティアモデル |
注目すべきは、Sonnet 4.6とOpus 4.6が同時期に存在していること。Sonnet 4.6がコーディング等の実務タスクでOpus 4.5を超える場面があるという結果は、モデルサイズの大小がそのまま性能差にならない時代に入ったことを示している。
コーディング性能
Claude Codeでの早期テストが印象的な結果を出している。
- ユーザーの70%がSonnet 4.5よりSonnet 4.6を選好
- 上位モデルであるOpus 4.5(2025年11月版)との比較でも59%がSonnet 4.6を選択
ユーザーからは「過度なエンジニアリングの減少」と「指示への忠実性の向上」が報告されている。コードを書く際に余計な「改善」を勝手に加えず、求められたことを正確にこなすようになったということだ。プロンプトインジェクション耐性もSonnet 4.5から向上している。
自分のブログ(このサイト)もClaude Codeで日常的に運用していて、Claude Code Tipsやベストプラクティス集、tmuxでの自動開発など、Claude Codeを使い倒す記事をそれなりに書いてきた。Sonnet 4.5の時点で実用レベルだったが、「余計なことをしない」という改善は体感でかなり効くはず。エージェントに任せるタスクほど、指示通りに動くかどうかが生産性に直結する。
コンピュータ使用能力
2024年10月にAnthropicが汎用コンピュータ使用モデルを初めて発表した時は「実験的でエラーが多い」という評価だったが、16ヶ月で大きく進化した。
- OSWorldベンチマーク: Sonnetシリーズで着実にスコアが向上
- 保険業務ベンチマーク: Paceの評価で94%の精度
- OfficeQA: Opus 4.6と同等のパフォーマンス
スプレッドシート操作や複数ステップのWebフォーム入力など、実務レベルのタスクをこなせるようになった。ただし、熟練した人間のユーザーにはまだ及ばないとのこと。
長文脈処理
ベータ版として1Mトークンのコンテキストウィンドウに対応。コードベース全体、長い契約書、複数の研究論文を単一リクエストに収めて処理できる。
Vending-Bench Arenaでは戦略的な長期計画能力の向上も実証された。序盤にキャパシティに投資し、途中から収益性に舵を切るという新しい戦略を自発的に開発したという。
価格とアクセス
| 項目 | 内容 |
|---|---|
| モデルID | claude-sonnet-4-6 |
| 入力 | $3 / 百万トークン |
| 出力 | $15 / 百万トークン |
| コンテキスト | 1Mトークン(ベータ) |
Sonnet 4.5と同価格で据え置き。Claude.aiのFree/Proプランではデフォルトモデルになる。Freeプランでもファイル作成、コネクタ、スキル、コンパクション機能が使えるようにアップグレードされた。
API機能の追加
今回のリリースに合わせて、複数のAPI機能が一般提供化された。
- Web検索・フェッチツール: 結果の動的フィルタリング付き
- コード実行機能
- メモリ機能
- プログラマティックツール呼び出し・ツール検索
- 拡張思考・適応的思考
- コンテキストコンパクション(ベータ): 自動要約で長い会話を圧縮
「Opus超え」はコーディングや定型オフィスワークの話で、深い推論はOpus 4.6が上。ただClaude Codeメインならコスパは圧倒的で、Opusの1/5の価格で同等以上の結果が出る。Claude Code設定でSonnet 4.6指定にしておけば日常の開発は十分回りそう。