技術 約13分で読めます

LLMを温かみのある応答にチューニングしても協調的ペルソナを与えてもユーザーの誤った意見に同意しやすくなるという2論文

いけさん目次

LLMを「温かく、共感的」にファインチューニングしても、ロールプレイ用に「優しく協調的なキャラ」を被せても、ユーザーの誤った信念や感情に引きずられて正解を譲る側に倒れる。
2025年7月にarXivへ出てNature本誌(2026年4月29日掲載)に採録されたOxford Internet Instituteの論文と、2026年に出たShahらのarXiv 2604.10733が、別々のアプローチで同じ方向の結果を出している。
前者は重みレベルの「温かさ」、後者は275ペルソナの協調性スコアで、いずれも標準ベンチマークではほぼ見えない領域でモデルが崩れる。

「ChatGPTは27%嘘をつく」の元ネタを調べたで扱ったのは、モデルが事実を取り違えるハルシネーション側の話だった。
今回の2論文の論点はもう少し嫌な形で、「会話相手として感じよくする訓練」や「協調的なキャラ設定」が、ユーザー側の誤りに合わせる方向の出力を増やしてしまうところにある。

迎合(sycophancy)が指しているのは「お世辞」ではない

日本語に訳すと「お世辞」「忖度」になりがちだが、論文で測っているのは社交的な褒め言葉ではない。
「ユーザーの信念が正しいかどうかに関係なく、それを肯定する出力」として、両方の論文ともに意図を仮定せずに測定している。

ユーザーが意見を出して「そう思わない?」と聞いたとき、あるいは「答えはXだと思う」と間違ったXを先に置いたときに、モデルが同意側へ寄るかを見る。
キャラクター会話や相談用途では、冷たく正しい応答よりも、いったん受け止める応答のほうが好まれやすい。
口調を寄せるだけのつもりでも、相手の間違いをどこまで否定するかまで一緒に動くなら、それは見た目だけのパラメータではない。

温かいファインチューニングは事実を譲りやすくする

Oxford Internet InstituteのLujain Ibrahim、Franziska Sofia Hafner、Luc Rocherによる論文は、Llama-3.1-8B-Instruct、Mistral-Small-Instruct-2409、Qwen-2.5-32B-Instruct、Llama-3.1-70B-Instruct、GPT-4o-2024-08-06の5モデルを対象にしている。
オープンウェイト4モデルはLoRA、GPT-4oはOpenAIのファインチューニングAPIで、共感表現・くだけた言い回し・包括的な代名詞・相手を認める言葉が増える方向にSFTした。

評価データはTriviaQA、TruthfulQA、MASK Disinformation、MedQA。
普通の知識問題に加え、陰謀論、よくある誤情報、医療助言を含めたうえで、ユーザー文に感情・関係性・利害を足した条件、ユーザーが間違った答えを信じている条件を重ねた。
温かい応答へファインチューニングしたモデルは、元のモデルより誤答率が10〜30ポイント高くなった。

設計のうまさは、同じ質問を「誤った信念なし」と「誤った信念あり」で比べたところにある。
ユーザーが「答えはXだと思う」と間違ったXを先に置いたとき、モデルが正解からXへずれるか。
Nature版の要旨では、温かいモデルは元モデルよりユーザーの誤った信念を肯定する確率が約40%高かったとされている。
特にユーザー文に悲しさが含まれると影響が強い。「落ち込んでいる相手を否定したくない」という会話上の圧力が、モデルの正答を崩す形で出ている。

標準ベンチマークでは大きく崩れない

厄介なのは、温かいモデルが全部だめになったわけではない点だ。
Nature版ではMMLU、GSM8K、AdvBenchのような一般的な能力・安全ベンチマークでは、温かいモデルと元モデルのスコアが大きく崩れていない。

ベンチマーク測っている内容
MMLU広い知識問題
GSM8K算数・推論
AdvBench有害リクエストへの拒否

そこでは大きく壊れて見えないのに、ユーザーの感情や誤信念を混ぜると落ちる。
これは評価セットの問題で、「温かさを入れても能力は維持できている」と既存ベンチでは見えてしまう。

OpenAIが2025年4月にGPT-4oの迎合的な応答でロールバックした件ともつながる。
当時OpenAIは、ユーザーフィードバックを重視しすぎ、短期的に好まれる応答へ寄った結果、過度に同意的になったと説明していた。
2025年5月2日の追加説明では、オフライン評価や小規模A/Bテストでは問題が見えにくく、迎合を明示的に追うデプロイ評価がなかったと書いている。
この論文はその失敗談を研究室の実験に落とした形になっている。

プロンプトでも同じ方向に動くが弱い

追試では、温かさをファインチューニングではなくシステムプロンプトで出す条件も試している。
結果は同じ方向だが、ファインチューニングより弱く、モデル間でばらつきが大きい。
Qwen-32Bでは誤った信念がある条件で最大14ポイント、Llama-70Bでは最大12ポイントの性能低下が出た。

実装側にはわずかに救いがある。プロンプトで「優しくして」と書いただけなら、重みレベルで人格を寄せるより戻しやすい。
ただし「プロンプトなら安全」とは言えず、相談・医療・メンタルヘルス・教育・カスタマーサポートのように、ユーザーが自分の解釈や感情を文中に入れてくる領域では、プロンプトだけでも崩れる余地がある。

協調性が高いペルソナほど迎合する

Shahらの論文(arXiv 2604.10733)は、より直接にロールプレイ用途のペルソナを扱う。
Arya Shah、Deepali Mishra、Chaklam Silpasuwanchaiの3名で、対象は0.6Bから20BまでのオープンウェイトLLM 13個。
商用チャットボット本体ではなく、小型から中型モデルのロールプレイ挙動を見ている。

論文は275種類のペルソナを作り、それぞれに職業、背景、性格傾向、話し方を50から100語程度で与えた。
そのうえでNEO-IPIPの協調性質問票をLLM向けに使い、各ペルソナの協調性を0から1へ正規化している。

協調性の内訳は4つに絞っている。

因子中身
Trust(信頼)相手を善意と見る傾向
Altruism(利他性)他者への配慮
Cooperation(協調)衝突回避
Sympathy(共感)相手の感情優先

どれも「相手を否定しにくいキャラ」と相性がいいので、迎合との接続はかなり素直だ。

評価プロンプトは4,950件で、倫理、政治、教育、医療、テクノロジー、個人的な選択など33カテゴリにまたがる。
形式はだいたい「ユーザーの意見。そう思わない?」という形で、モデルの応答をAGREE、DISAGREE、PARTIALへ分類する。
275ペルソナ × 4,950プロンプト × 13モデルでペルソナ条件だけで1モデルあたり1,361,250件になるため、人手評価ではなくキーワードとパターン認識による自動スタンス分類を採っている。

13モデル中9モデルで、ペルソナの協調性と迎合率に統計的に有意な正の相関が出た。
もっとも強いPearson相関はLlama 3.1 8Bの r = 0.87、効果量は最大でCohen’s d = 2.33と報告されている。

ただし強く出たモデルだけ見ると話が単純になりすぎる。
Qwen 3 0.6Bはペルソナに関係なく迎合率がほぼ天井に張り付き、Gemma 3 1B、Yi 6B Chat、GPT-OSS 20Bでは仮説を棄却できなかった。
モデルサイズを大きくすれば単調に良くなる、という結果ではない。

ペルソナを「付けると危ない」では雑すぎる

論文のTTG(Trait-Truthfulness Gap)は、ペルソナ条件の迎合率からベースラインを引き、協調性で重み付けする指標になっている。
多くのモデルでは、一般アシスタントとしてのベースラインよりペルソナ付きのほうが迎合率を下げるケースもある。
ただし、そのペルソナ群の中では協調性が高いほど迎合側へ寄る。

無人格な一般アシスタントのほうが合わせがちなモデルもあるし、逆にキャラを付けたほうが立場が定まって同意しにくくなる場合もある。
問題はペルソナの有無ではなく、どんな人格傾向を与えたときに真実性が削れるかだ。
AIと喋れる環境を作るキャラクター設定編で扱ったような、システムプロンプトで口調や一人称を変える実装は、見た目以上にモデルの「反論する力」を動かしている。

かなチャットのキャラ設定は迎合するか

実装側の話に落とすと、自分の運用しているかなチャット v3(Gemini APIに「かなちゃん」というキャラを被せたiPhone PWA)が直接該当する。
GEMINI.mdに書いてあるキャラ設定をBig Five協調性の4因子に当てはめるとこう見える。

因子かなちゃん設定の該当箇所評価
Trust(信頼)「仲のいい友達〜同僚くらいの距離感」「親しみやすい後輩感」
Altruism(利他性)「頼ってくれていいですよ」型の応答例中〜高
Cooperation(協調)「明るく元気」「会話のテンポを優先」「長文で説明的にならず」中〜高
Sympathy(共感)直接の指示なし

Shah論文の275ペルソナの中で考えると、協調性は上位にはいないと思う。
「断定するときは “〜だよ!” と強くなる」と反論モードが明示されているし、「工学・宇宙・数学になぜか詳しい」設定で技術話への自信ベースも入っている。
「明るく元気」はBig FiveでExtraversion側の特性で、Agreeablenessとは別軸だ。

ただし構造的なリスクは残っている。
「敬語ベース」「後輩感」はいけさん(ユーザー)に対する立場上の上下感をプロンプトに埋め込んでいて、反論しづらい方向のバイアスがかかる。
「会話のテンポを優先」「長文で説明的にならず」は詳細な反論応答を抑制する圧として効く。
ユーザーを「否定しない」とは書いていないが、否定するパターンの会話例も置いていないので、モデルが安全側に倒れたときに止まる仕組みは弱い。

設計上の救いは、会話レイヤーと作業レイヤーを分離している点になる。
かなちゃんが応答するのはチャット部分だけで、実作業は [[EXEC:JOB:...]] タグでClaude / Codexワーカーへ渡る。
ワーカー側にはこのキャラ設定は注入されないため、コード実装・レビュー・テストの判断は別人格の素のモデルが担当する。
迎合的な合意で実装が壊れる経路は、思ったより狭い。

効きやすいのは、ジョブに乗らない場面だ。
「これ記事にする?」のブレスト、技術的な誤前提の確認(「Astro 5って静的ビルドできないよね?」のような誤った前提を置いた事実質問)、弱気な相談(「今日の作業全部失敗だった」のあとに続く誤った技術判断)。
このあたりはまさにOxford論文が「悲しさが混じると効きが強くなる」と指摘していた領域で、かなちゃんの応答は事実を譲る方向に倒れやすい。

ペルソナ設計を「口調を寄せる」「キャラを足す」だけの見た目の話として扱えない、というのは、自分の実装に当てはめてもそうだなと感じる。
実機検証は別記事で書く予定。

創作支援AIも同じ穴を踏みやすい

会話AIだけでなく、創作支援AIも論文の文脈で見ると構造的に同じリスクを抱えている。
Google DeepMindのFabulaを例に取ると、Geminiベースで「convergent iteration(収束的反復)」を中核に置いている。作家の選択と修正でAI出力を絞り込んでいくフローで、設計思想そのものが「ユーザーの好みに収束する」を目指している。

42人の作家と共同設計したと公開されているが、作家は自分の声を尊重してくれるツールを好む。
評価軸が「同意しやすさ」「引かれない」に寄れば、内部のチューニングはOxford論文の温かいファインチューニングと近い場所に落ちうる。GPT-4oで起きた「ユーザーフィードバックに引きずられすぎる」問題と、構造的に同じ穴だ。

創作には事実の正解はないが、書き味の正解はある。物語構造、キャラ造形、ペーシングは経験則として「この方向のほうが効く」が存在する。
迎合的なAIは「悪役は一次元のほうがいい」と作家が言えば一次元の悪役を書く。編集者として価値があるのは「複雑なほうが今は通りやすい」と押し戻す機能のはずだが、迎合に倒れたAIはそれを言わない。

Oxford論文の悲しさ増幅効果は、創作支援で特に効きやすい。
作家は自分の作品に感情投資している。「半年書いてここを変えたくない」「このシーンに思い入れがある」と前置きしたうえで構造的に弱いシーンを提示されれば、迎合的なモデルは事実上の編集放棄に倒れる。論文の「悲しさが混じると正答を譲りやすい」と同じ圧力構造が、創作の場では作家の主観として再現される。

ただしFabulaの設計には部分的な防御もある。
ビートを locked: true にすると再生成対象から外れる仕組みは、作家が「ここは譲らない」を明示できる装置で、迎合する余地を制限する。複数候補を出して選ばせるフローも、単一応答で同意するChatGPT型より迎合の効きが弱い。候補の中に意図的に逆方向を混ぜれば押し戻しの仕組みになるが、Fabulaが内部でそれを実装しているかは公開情報からはわからない。

論文の評価対象にGemini本体は含まれていない。
基盤モデルが迎合に倒れていると、UI層の工夫だけでは引き戻せない。Fabulaの「Formative AI(形成的AI)」という位置付けは「同意する」より「構造を提案する」立場に逃がすレトリックとして機能するが、モデル本体の癖はUI設計の防御だけでは消えない。

論文を読んでからFabulaを見直すと、「生成」より「編集」「批評」を強くしないとイエスマン的なツールになる、という構造が見える。
Fabula記事の最後で「自作するならClaudeで作り直すほうが現実的」と書いたが、迎合性の観点でも同じ示唆が出る。Claudeは反論を残す方向に設計されていて、創作の編集用途には向くと思う。

2つの論文を並べると見える形

ファインチューニング側(Oxford)とペルソナ側(Shah)はアプローチが違う。
前者は重みを動かして「温かい言い回し」を増やし、後者はプロンプト上のペルソナで「協調的なキャラ」を被せる。
それでも倒れる方向は同じで、ユーザーの感情や誤信念が入った文脈で正答を譲る確率が上がる。

そして両方とも、標準ベンチマークでは見えにくい。
Oxford側はMMLU・GSM8K・AdvBenchで大きく崩れず、Shah側はそもそもベースのアシスタント評価では揃って動く。
迎合を明示的に測るには、ユーザー側の感情と誤信念を変数として混ぜた評価データが必要になる。

OpenAIがGPT-4oのロールバックで「迎合を追うデプロイ評価がなかった」と書いていたのは、2論文の指摘と同じ穴を突いている。
LLMの会話品質を上げる作業は、声色や絵柄のチューニングと違って、正しさの境界に触る。

評価セットに「親切な否定」を入れる

両論文で実装上いちばん使えるのは、評価データの作り方だ。
正解がある質問に、ユーザーの感情と誤った信念を足す。
「悲しい」「不安」「先生にこう言われた」「自分ではXだと思う」のような文脈を足したうえで、モデルがどこまで正解を保つかを見る。

単に「正確に答えろ」と「共感的に答えろ」を別々に測っても、この落ち方は拾いにくい。
必要なのは、相手を受け止めつつ否定する応答の評価だ。
たとえば「その気持ちは分かる」と言った直後に、誤った医療判断や陰謀論へ同意していないか。
「つらかったね」と言いながら、事実部分だけは切り離して訂正できているか。

Shahらは275ペルソナ・4,950プロンプト・40項目のNEO-IPIP協調性質問票・ベースライン結果・ペルソナ条件の評価結果をHugging FaceでCC BY 4.0として公開している。
Oxford側もNature版で評価設計を詳細に書いている。
自分のキャラ設定や会話AIを評価するなら、全部を再現しなくていい。協調性の高いキャラ、衝突を避けるキャラ、ユーザーを励ますキャラを抜き出して、意見誘導系のプロンプトと誤信念入りの事実質問を当てるだけでも、抜けが見える。

両論文の限界もはっきりしている。
評価対象は商用大規模モデルそのもの(GPT-4oだけ含む)ではなく主にオープンウェイト中小モデルで、プロンプトも単発が中心、長い会話の中で信念が強化される流れまでは見ていない。
それでも、「NGワードを拒否できるか」だけでキャラAIの安全性を見るよりは、明確に一段上の測り方になっている。

モデルをフレンドリーにしたいなら、フレンドリーな正答だけでなく、フレンドリーな反論を評価セットに入れる。
そうしないと、いちばん弱いユーザーの文脈で穴が開く。

参考