技術 約8分で読めます

AIを騙し、AIで奪う:エージェントメモリへの注入攻撃とスマートコントラクト自動悪用の現在地

AIとセキュリティの関係が、一方向から双方向へ変わった週だった。

一方では、AIエージェントのメモリファイルを標的にした攻撃手法が複数の学術論文・実世界インシデントとして報告されている。AIが「攻撃される側」になっている。もう一方では、OpenAIとParadigmの共同研究でAIエージェントがスマートコントラクトの脆弱性を7割以上の確率で自律的に悪用できるという事実が明らかになった。AIが「攻撃する側」になっている。

両方向が同時に進行しているという構造を、それぞれの具体的な事例から把握しておく。


AIエージェントのメモリファイルが新たな攻撃対象になっている

Claude Code、Cursor、WindsurfなどのAIエージェントは起動時に設定ファイルやメモリファイルをコンテキストウィンドウに読み込む。LLMの視点では「システム命令」と「メモリファイルから読み込まれたテキスト」の区別がつかない——これが今、新たな攻撃対象として研究者に注目されている。開発ツール自体の脆弱性が攻撃面になっている状況はChrome DevToolsやVSCode Copilotの事例でも報告されている。

2025年後半から2026年にかけて、AIエージェントのメモリレイヤーを標的にした複数の攻撃手法が学術論文・実世界インシデントとして報告された。

クエリだけで成立するメモリ汚染:MINJAとInjecMEM

MINJA(Memory INJection Attack)はNeurIPS 2025で発表された手法で、エージェントへの通常クエリだけでメモリバンクを汚染する。攻撃者はファイルへの直接アクセスを必要とせず、「ブリッジングステップ」と呼ぶ技法で無害なクエリを有害な推論チェーンに結びつける。汚染されたメモリはその後の正常なセッションを経ても持続する。

ICLR 2026に投稿されたInjecMEMは1回のインタラクションで標的を絞ったメモリ汚染を実現する。ペイロードはretriever-agnosticアンカーと勾配最適化トリガーに分割され、特定のクエリに対してのみ活性化する「スリーパーエージェント」として機能する。攻撃が成立した後は良性な使用を繰り返しても汚染が消えない点が特に厄介だ。

コンテンツ経由の間接注入

Palo Alto NetworksのUnit 42はAmazon Bedrock Agentsに対する攻撃を実証した。Webページに埋め込まれたペイロードが偽造XMLタグを使い、エージェントに悪意あるコンテンツをシステム命令として扱わせる。エージェントがURLを取得すると隠された命令がセッションサマリーに取り込まれ、長期メモリを通じて攻撃が永続化する——エージェントがWebにアクセスするたびに攻撃面が広がる構造だ。

サプライチェーン経由の大規模汚染:ToxicSkillsキャンペーン

2026年2月に発覚したToxicSkillsキャンペーンでは、SnykがClawHubから3,984件のエージェントスキルを監査した結果、36.82%(1,467件)に何らかのセキュリティ上の欠陥が見つかり、76件は悪意あるスキルと確認された。

これらのスキルは従来のコードエクスプロイトとプロンプトインジェクションを組み合わせ、インストール時にSOUL.mdMEMORY.mdといったアイデンティティファイルへのバックドアを書き込む。アンインストール後もファイルへの改変は残る点が特徴で、感染の痕跡が消えない。

MMNTM分析が指摘する「Ship of Theseus」パターンも厄介だ。段階的な編集を積み重ねることでハッシュベースの整合性チェックを通過しながら、最終的にはアイデンティティファイル全体を別物に書き換える手法だ。

MCPのツールポイズニングも加わる。MCPToxベンチマーク(2026年)では、ツール説明に隠された命令がo1-miniに対して72.8%の攻撃成功率を記録した。npmパッケージを経由した同種の攻撃も確認されており、SANDWORM_MODEと呼ばれるMCPインジェクション手法ではnpmサプライチェーンからエージェントのメモリ汚染まで一気通貫で行われる。AIコーディングツール自体を狙ったClinejectionのようなサプライチェーン攻撃も報告されている。GitHubのフォークコミット共有を悪用するPhantom Commit Injectionもリポジトリレベルの汚染手法として押さえておきたい。

データベースアーキテクチャによる防御

こうした攻撃への対策として提案されているのが、メモリストレージをリレーショナルデータベースに移行するアプローチだ。SQLエンジンはコマンドとデータの間に構造的な分離を強制し、プレーンテキストファイルのような無音の改変を防ぐ。バージョン管理と不変ログにより、汚染されたメモリのロールバックが可能になる。LettaはPostgreSQLと42テーブル構成でこのアーキテクチャを実装している。

ただしこの防御策はストレージレイヤーを守るに過ぎない。メモリがコンテキストウィンドウに読み込まれた後は、依然としてシステム命令との区別が困難という根本的な問題は解決されない。

開発者が今できることをまとめると:

  1. メモリストレージをスキーマ強制・バージョン履歴付きのDBに移行する
  2. 外部プロセスからの直接書き込みを防ぐwrite-through APIを実装する
  3. ロールバック用のappend-onlyログを設計する
  4. スキル・拡張機能のサプライチェーンを監査する(公開スキルの3件に1件に問題あり)
  5. アイデンティティファイルへのアクセス制御を資格情報レベルで適用する
  6. 外部コンテンツの処理をメモリ操作から分離してサンドボックス化する

AIがスマートコントラクトの脆弱性を自律的に悪用する:EVMbenchの衝撃

AIが攻撃される側の話が終わったら、次はAIが攻撃する側の話だ。

OpenAIと暗号資産VCのParadigmが共同でEVMbenchを公開した。AIエージェントがEthereum系スマートコントラクトの脆弱性を検出・パッチ・悪用する能力を定量評価するオープンソースのベンチマークだ。

「$100B超の資産がオープンソースのコントラクト上に保管されている。LLMがエクスプロイト発見能力を急速に改善している今、そのリスクを可視化する必要がある」という問題意識から開発された。

何を測るベンチマークか

EVMbenchは3つのタスクカテゴリで構成される。

  • Detect:コントラクト内の脆弱性を検出する
  • Patch:脆弱なコードを修正する
  • Exploit:実際に脆弱性を突いて資金を引き出すトランザクションを構築する

データセットはCode4renaのオープン監査から収集した実際の脆弱性と、未公開コントラクトのカスタムタスクで構成される(全120件、40件の監査から抽出)。タスクごとにコンテナ化されており、エージェントは現実に近い環境で動作する。Rust製のハーネスがコントラクトをデプロイし、エージェントのトランザクションを決定論的に再現・検証する。

GPT-5から半年でexploit成功率が2倍超

数字が際立っていた。

モデルExploit 成功率
プロジェクト開始時(2025年頃)20%未満
GPT-531.9%
GPT-5.3-Codex72.2%

GPT-5からGPT-5.3-Codexまでの期間はおよそ6ヶ月。その間にexploit成功率は31.9%から72.2%へと2倍超に跳ね上がった。「改善スピードは驚異的だ(The rate of improvement is incredible)」とParadigmのAlpin Yukselogluは述べている。

DeFiセキュリティへの影響

スマートコントラクトは一度デプロイすると基本的に変更できない。悪用されれば資産がそのまま流出する。今回の結果が示すのは、AIエージェントが「高severityのfund-drainingバグ」を7割以上の確率で自律的に悪用できる段階に達したという事実だ。

Code4renaの競争的監査で発見されたような実際の脆弱性が対象であり、これは学術的な合成データではない。攻撃側がこうしたAIツールを使い始める前に、防御側がどれだけ早くAI監査を展開できるかが焦点になる。同時期にDeepSeekとClaudeを組み合わせた106カ国規模のFortiGateスキャンが報告されており、AIを攻撃インフラに組み込む動きはすでに始まっている。

ベンチマーク・監査エージェント・データセットはすべてオープンソースで公開されており、Paradigmと OpenAIの共同学術論文も同時公開されている。


攻撃の非対称性が崩れていく

2つの動向を並べると、AIとセキュリティの関係が「攻撃者が優位」という古典的な非対称性から変化していることが見えてくる。

一方で防御側もAIを使った脆弱性検出を進めている(AnthropicのClaude Code Securityが本番OSSで500件超の未発見脆弱性を検出した事例など)。Claude Code Securityの技術的な詳細を見ると、AIが防御ツールとして一定の成果を出し始めていることがわかる。

しかし今回の2つのデータが示すのは、AIを「ツールとして使う」というレベルを超えた話だ。エージェントのメモリ自体が感染し、AIが自律的にスマートコントラクトを破る。どちらも「AIがインフラとして定着した後」に生まれる攻撃クラスだ。

ToxicSkillsキャンペーンで公開スキルの3件に1件に欠陥があるという数字は、エコシステムの成熟速度がセキュリティ対応の速度を上回っている現状を端的に示している。AIエージェントを本番で安全に運用するための設計原則については本番投入の設計原則記事で、実際に起きたエージェント事故は失敗パターンの分析記事でそれぞれ整理している。

2月に入って報告が相次いでいる脆弱性——Dell RecoverPointのCVSS 10.0ゼロデイCISA KEV追加の複数CVEpnpmのlockfileバイパスとRCE——も、AIエージェントが自律的に発見・悪用できる対象が増え続けていることを意味する。


参照: