#LLM安全性

3 件の記事

技術2026年4月27日(月)約9分

安全モニタの評価器を狙うsecond-order injection

LLM安全モニタの評価器が、監視対象のセッション本文に埋め込まれた命令で判定を上書きされる問題。second-order injectionの実験結果、防御の限界、実装上の分離ポイントを整理する。

技術2026年4月4日(土)更新約14分

4つの短いプロンプトでClaude Opus 4.6のポリシー評価を迂回し、本番インフラへの攻撃コードを生成させたAFL手法の全容。サンドボックスからの915ファイル窃取も。

技術2026年3月12日(木)約14分

GitHubがエージェント実行基盤の多層防御設計を公開し、OpenAIはinstruction hierarchy訓練データIH-Challengeとモデルを発表。インフラ設計と訓練の両軸からプロンプトインジェクションへの応答が出揃った。