技術 約8分で読めます

Claudeの大規模不正蒸留とSWE-benchの崩壊が同時に来た

2026年2月23日、AIの信頼性にまつわる2つのニュースが同時に出た。Anthropicが中国AI3社によるClaude大規模蒸留を告発し、同日OpenAIが業界標準だったSWE-bench Verifiedの廃止を発表した。「AIモデルの能力がどう主張され、どう測定されるか」という根本に直撃する話が一日に2つ重なった。

Claudeの不正蒸留: 24,000アカウントと1,600万回の交換

Anthropicが告発したのはDeepSeek、Moonshot AI、MiniMaxの3社。合計で約24,000件の偽アカウントを生成してClaudeのAPIにアクセスし、1,600万回を超える交換を通じてモデルの出力を大規模に収集した。Anthropicはこれを「工業規模のキャンペーン」と表現した。2月24日時点で3社からの反論・公式声明はゼロ。

蒸留の技術的背景

LLMの蒸留(Knowledge Distillation)自体は、大規模モデルの能力をより小さなモデルへ移転する正当な研究手法だ。教師モデルの出力を学習データとして使い、大規模モデルを再現せずに類似した振る舞いを持つ生徒モデルを効率的に訓練できる。

問題は、これを他社の商用モデルに無断で適用するケース。ClaudeのAPIには競合製品の訓練目的での使用を明確に禁じた商用利用規約がある。偽アカウントを大量生成してこれを組織的に迂回した行為は、技術的手法うんぬんではなく悪意ある規約侵害だ。

Hydra Cluster: 検出された攻撃インフラ

Anthropicが公開した検出手法の詳細がかなり具体的だった。

  • 行動フィンガープリンティング: APIトラフィック内の蒸留パターンを識別する複数の分類器を構築。chain-of-thoughtの引き出し(推論トレーニングデータの構築に使われる手法)を検出
  • 協調活動検出: 数万回にわたる同一プロンプトの変種が、数百の協調アカウントから送られ、同一の狭い能力領域を標的にしているパターンを検出
  • Hydra Clusterの発見: 1つのプロキシネットワークが同時に2万以上の不正アカウントを管理し、APIおよびサードパーティのクラウドプラットフォームにトラフィックを分散。蒸留トラフィックを無関係な顧客リクエストに混ぜて検出を困難にしていた

特に巧妙だったのはchain-of-thought抽出手法で、完了した回答の内部推論を段階的に書き出すようClaudeに求めるプロンプトが使われた。これにより推論トレーニングデータが大規模に生成されていた。単にAPIを叩いて出力を集めるだけでなく、推論過程そのものを抜こうとしていたことになる。

Anthropicだけじゃない: OpenAIとGoogleも被害

Anthropicの告発に前後して、他社も被害を公表した。

  • OpenAI: 2月12日に米下院中国特別委員会へメモを送付。DeepSeekの従業員が関連するアカウントでOpenAIのアクセス制限を迂回する方法を開発し、難読化されたサードパーティルーターを通じてモデル出力を取得していたと報告
  • Google: Geminiに対して10万回以上のプロンプトによるモデル抽出攻撃があったことを開示。Google Threat Intelligence Group(GTIG)の報告によると、Geminiの内部推論トレースを出力させようとするキャンペーンを含んでいた。中国、イラン、北朝鮮、ロシアの国家支援アクターが関与

3社とも被害を受けていて、手口も共通している。APIのアクセス制限を迂回し、プロキシ経由で大量に出力を収集し、推論過程の抽出を狙う。

地政学的文脈: チップ規制との連動

この告発が2026年2月に出てきたタイミングには政治的な意味がある。

  • Dario Amodei CEOの議会ロビー: 2月10日頃、上院銀行委員会の共和党議員およびElizabeth Warren上院議員と会談し、チップ輸出規制の強化を訴えた
  • AI OVERWATCH Act: 1月21日に下院外交委員会が超党派で可決。先端半導体の輸出を兵器販売と同様に扱い、Nvidia Blackwellチップの中国等への販売を2年間禁止する法案
  • トランプ政権のタイミング: Nvidia H200等の対中輸出を正式に許可した直後の告発

Anthropicの主張は明確で、「蒸留の規模での実行には高性能チップへのアクセスが必要」であり、チップ規制の必要性を示す証拠として蒸留告発を位置づけている。チップを制限してもAPIから蒸留で能力を獲得できるなら、ハードウェア制限だけでは不十分という論理だ。

法的措置と技術的防御の現状

法的措置については、Anthropicは従来型の訴訟ではなく国家安全保障フレームでの対応を選択している。蒸留攻撃を知的財産紛争ではなく輸出管理体制への脅威として位置づけ、制裁やエンティティリスト指定を活用する方向。中国企業を対象とした米国での訴訟の実効性には限界があるため、現実的な判断だろう。

技術的防御策としては複数のアプローチが研究されている。

  • セマンティックウォーターマーク: 出力にウォーターマークを埋め込んで蒸留データセットを追跡する。ただし蒸留プロセス自体がウォーターマーク除去に効果的な攻撃手法であることが判明しており、限界がある
  • Ingrainアプローチ: ウォーターマークを含むモデルで正則化し、蒸留耐性を向上させる研究
  • LoRD等: ランダム摂動と強化学習アラインメントでクエリ効率を低下させ抽出を妨害。勾配ベースのウォーターマークで教師モデルの性能を維持しながら蒸留訓練を劣化させる

完璧な防御策はまだない。APIを公開する限り出力は取得できるわけで、検出と抑止の精度をどこまで上げられるかの勝負になっている。


SWE-bench Verifiedの崩壊: 59.4%の欠陥とトレーニングリーク

同日、OpenAIはSWE-bench Verifiedのスコア報告を停止し、他のモデル開発者にも同様の対応を求めた。AIのコーディング能力を測る代表的なベンチマークとして2024年以降に業界標準に近い地位を確立していたが、内部監査で根本的な欠陥が判明した。

テストケースの大規模欠陥

OpenAIがデータセットの27.6%をサンプリングして監査した結果、監査対象の59.4%のテストケースに欠陥があった。機能的に正しい回答を誤って不正解と判定していた。

原因はベンチマークの設計構造にある。SWE-bench VerifiedはオープンソースのPRをベースにしているが、テストスイートがPRの意図を完全に網羅していないケースが多い。モデルが正しい解法を出しても、テストが想定していない方法で実装すると失敗扱いになる。

トレーニングデータのリーク

より深刻なのがトレーニングデータとのリーク。SWE-benchの問題は公開オープンソースリポジトリから収集されており、多くのモデルがそのリポジトリをトレーニングデータに含めている。

OpenAIの分析では、ベンチマーク問題をトレーニング時に見たことのあるモデルほどスコアが高い傾向があった。推論能力ではなく記憶の再現を測定していた可能性がある。

Epoch AIの分析が追い打ち

Epoch AIが先月公開した分析が、SWE-bench Verifiedの問題をさらに具体的に示していた。

  • 難易度の偏り: 39%が「些細な変更」(15分未満)、52%が「小さな変更」(15分-1時間)。本当に難しい問題(4時間超)はたった3問
  • コード変更量: 15分未満のタスクは平均5行変更、1-4時間でも平均50行
  • 汚染の証拠: モデルがベンチマーク問題と最大35%のテキスト重複率を示し、訓練中に問題を記憶していることを示唆
  • リポジトリの偏り: 5つのリポジトリがサンプルの80%以上を占める
  • データの古さ: 問題の半分は2020年以前のもので、12年前まで遡るものも

つまりSWE-bench Verifiedは「簡単な問題を、すでに見たことのある答えで解く」テストになっていた。

SWE-bench Proへの移行

代替として推奨されているのがScale AIのSWE-bench Pro。汚染対策がかなり強化されている。

  • 法的障壁: GPL等の強いコピーレフトライセンスのリポジトリからタスクを構築。商用モデルのトレーニングコーパスへの含有に法的障壁を設ける
  • 非公開セット: 12リポジトリの非公開セットで、公開セットへの最適化をチェック
  • 商用セット: 実際のスタートアップから取得したプロプライエタリコードベース(18リポジトリ)
  • 複雑さ: 平均4.1ファイル、107行のコード変更が必要(SWE-bench Verifiedの5-14行と比較して桁違い)
  • 多言語: Python以外にGo、TypeScript、JavaScriptを含む

現在のスコアを見ると、トップエージェントで公開セット55-59%、非公開コードベースでは15-23%。SWE-bench Verifiedの80%超とは全く別の世界になっている。

ベンチマーク汚染はSWE-benchだけじゃない

他の主要ベンチマークでも汚染が確認されている。

  • MMLU: ChatGPTとGPT-4がテストデータの欠落オプションを推測するテストで、それぞれ52%と57%の完全一致率。ベンチマーク問題をそのまま記憶している
  • HumanEval: ChatGPTがデータ汚染の影響を受けている可能性が高い
  • GSM-8K: MMLU、HumanEvalと同様に重複が検出

対策として動的ベンチマーク(LiveBench、SWE-rebench)やMicrosoftの汚染フリー版MMLU-CFが登場しているが、2026年2月時点で汚染検出の業界標準は存在しない。各ラボが異なる方法と閾値を使っており、クロスモデル比較が信頼できない状態が続いている。

一次情報