タグ一覧

#AIセーフティ

6 件の記事

技術約13分

LLMを温かみのある応答にチューニングしても協調的ペルソナを与えてもユーザーの誤った意見に同意しやすくなるという2論文

技術約10分

AnthropicがClaude内部に171個の感情ベクトルを発見、脅迫やreward hackingの原因に