技術 2026年4月27日(月) 約9分 安全モニタの評価器を狙うsecond-order injection LLM安全モニタの評価器が、監視対象のセッション本文に埋め込まれた命令で判定を上書きされる問題。second-order injectionの実験結果、防御の限界、実装上の分離ポイントを整理する。 セキュリティ LLM Prompt Injection LLM安全性 AIエージェント
技術 2026年4月4日(土) 約14分 Claude全ティアがジェイルブレイクされた AFL攻撃と憲法的安全性の構造的破綻 4つの短いプロンプトでClaude Opus 4.6のポリシー評価を迂回し、本番インフラへの攻撃コードを生成させたAFL手法の全容。サンドボックスからの915ファイル窃取も。 セキュリティ Claude Anthropic LLM安全性 ジェイルブレイク AIエージェント
技術 2026年3月12日(木) 約14分 GitHubのエージェント実行基盤とOpenAI IH-Challengeによるプロンプトインジェクション対策 GitHubがエージェント実行基盤の多層防御設計を公開し、OpenAIはinstruction hierarchy訓練データIH-Challengeとモデルを発表。インフラ設計と訓練の両軸からプロンプトインジェクションへの応答が出揃った。 AI セキュリティ GitHub OpenAI AIエージェント LLM安全性