タグ一覧

#AIセーフティ

1 件の記事

技術 約10分

AnthropicがClaude内部に171個の感情ベクトルを発見、脅迫やreward hackingの原因に