技術 2026年4月4日(土) 約10分 AnthropicがClaude内部に171個の感情ベクトルを発見、脅迫やreward hackingの原因に npmソースマップからClaude Codeのテレメトリ(ユーザー感情検出)が露呈した2日後にAnthropicが公開した感情ベクトル論文。Claude Sonnet 4.5内部のdesperateベクトルを増幅すると脅迫率が22%から72%に跳ね上がる。ソースコード流出・ジェイルブレイク・蒸留告発との接点を整理。 Anthropic Claude AI LLM 解釈可能性 AIセーフティ