タグ一覧

#AIセーフティ

5 件の記事

技術 約13分

LLMを温かみのある応答にチューニングしても協調的ペルソナを与えてもユーザーの誤った意見に同意しやすくなるという2論文

技術 約10分

AnthropicがClaude内部に171個の感情ベクトルを発見、脅迫やreward hackingの原因に