タグ一覧

#解釈可能性

1 件の記事

技術 約10分

AnthropicがClaude内部に171個の感情ベクトルを発見、脅迫やreward hackingの原因に