技術2026年4月27日(月)約9分安全モニタの評価器を狙うsecond-order injectionLLM安全モニタの評価器が、監視対象のセッション本文に埋め込まれた命令で判定を上書きされる問題。second-order injectionの実験結果、防御の限界、実装上の分離ポイントを整理する。セキュリティLLMPrompt InjectionLLM安全性AIエージェント
技術2026年4月4日(土)更新約14分Claude全ティアがジェイルブレイクされた AFL攻撃と憲法的安全性の構造的破綻4つの短いプロンプトでClaude Opus 4.6のポリシー評価を迂回し、本番インフラへの攻撃コードを生成させたAFL手法の全容。サンドボックスからの915ファイル窃取も。セキュリティClaudeAnthropicLLM安全性ジェイルブレイクAIエージェント
技術2026年3月12日(木)約14分GitHubのエージェント実行基盤とOpenAI IH-Challengeによるプロンプトインジェクション対策GitHubがエージェント実行基盤の多層防御設計を公開し、OpenAIはinstruction hierarchy訓練データIH-Challengeとモデルを発表。インフラ設計と訓練の両軸からプロンプトインジェクションへの応答が出揃った。AIセキュリティGitHubOpenAIAIエージェントLLM安全性