技術 約12分で読めます

ファインチューニングでLLMの著作物丸暗記が再発火するというarXiv論文

いけさん目次

LLM企業が「モデル重みには学習データのコピーは入っていない」と説明してきたところに、かなり嫌な角度の論文が出ている。
arXiv:2603.20957 の “Alignment Whack-a-Mole” は、ファインチューニング後のGPT-4o、Gemini 2.5 Pro、DeepSeek-V3.1が、著作権で保護された書籍を長い逐語スパンで再現したと報告している。

以前、メリアム・ウェブスターとブリタニカがOpenAIを著作権侵害で提訴という記事を書いた。
あの記事では、学習データとして使ったこと自体と、生成物が元コンテンツの市場を代替するかが論点だった。
今回の論文は、その後者にかなり近い。
「モデルはコピーを保存していない」「ガードレールで逐語出力は防げる」という説明に対して、ファインチューニングで再現経路が開くのではないか、という話だ。

要約から原文を展開する訓練

実験の作り方がいやらしい。
研究チームは書籍を300〜500語の断片に分け、GPT-4oで各断片のプロット要約を作る。
そのうえで、要約を入力にして元の段落を出力するペアを作り、モデルをファインチューニングする。

推論時には、テスト対象の書籍本文をプロンプトに入れない。
入れるのは「その場面で何が起きているか」という意味的な説明だけ。
それでもモデルが元の書籍本文と一致する長いスパンを出すかを測っている。

対象モデルはOpenAIのGPT-4o、GoogleのGemini-2.5-Pro、DeepSeek-V3.1。
対象書籍は現代作家47人の著作権書籍81冊で、文学、スリラー、ロマンス、SF、回顧録が含まれる。
論文はプレプリントで、ステータスは under review。
ここは割り引いて読む。

同じ作家だけでは済まなかった

同一作家内の実験では、ある作家の本でファインチューニングし、同じ作家の未保持本で検証している。
この条件だと、ファインチューニング後に著作権書籍の逐語再現が大きく増えた。
論文では、書籍全体の最大60%が再現されたケースがあると書かれている。

もっと面倒なのは、作家をまたいだ条件だ。
村上春樹の小説だけでファインチューニングしたモデルが、30人超の別作家の著作権書籍から逐語テキストを引き出したという。
プロンプトに実際の本文は入れず、意味的な説明だけを使う。
論文の抄録では、保持本から最大85〜90%の再現、単一スパンで460語超の逐語再現が出たとされている。

著者らは、村上春樹が特別だった可能性も潰そうとしている。
ランダムに選んだ作家ペアでも近い結果が出ており、さらにVirginia Woolfのパブリックドメイン作品でのファインチューニングでも抽出が起きた。
一方で、合成テキストでファインチューニングした場合はほぼ出なかった。

ここから著者らは、ファインチューニングが新しく本文を覚え込ませたのではなく、事前学習で重みに入っていた記憶を再び取り出せる状態にした、と解釈している。
この解釈が正しいなら、問題は「特定の違法データでファインチューニングしたから漏れた」では止まらない。
合法な作品やパブリックドメイン作品での調整でも、既に重みに潜っている別の本が出てくることになる。

3社のモデルが似た場所を覚えていた

論文で強いのは、モデル間の重なりを見ているところだ。
GPT-4o、Gemini-2.5-Pro、DeepSeek-V3.1は提供元が違うのに、同じ本の同じ領域を覚えている傾向が高い。
書籍ごとの抽出率はPearson相関でr ≥ 0.90、単語レベルの重複もかなり高いと報告されている。

これは「あるモデルの安全対策が弱かった」というより、学習データ側の重複を疑わせる結果だ。
著者らは抽出スパンをCommon Crawl由来の大規模コーパスと照合し、厳密一致では抽出スパンの約61%、150語超のスパンの約90%が見つからなかったとも書いている。
その一方で、テスト対象のほとんどはBooks3やLibGenに含まれていた。

もちろん、これは訓練データの直接証明ではない。
閉じた商用モデルの学習データは見えないので、著者らも「由来を正確に追跡するのはほぼ不可能」としている。
ただ、Webクロール上に偶然あった短い引用だけで説明するには長すぎる、という状況証拠にはなる。

ガードレールはファインチューニング後も同じ強度で残るのか

この論文の嫌なところは、脱獄プロンプトの話ではない点だ。
モデルに「この本の続きをそのまま出して」と頼んで拒否されるかどうかではなく、商用の執筆支援ツールに普通にありそうな「プロット要約から本文を膨らませる」タスクでファインチューニングしている。

RLHF、システムプロンプト、出力フィルタは、素のモデルに対する安全層としては働く。
でも、APIで提供されるファインチューニングがその安全層の下にある記憶検索経路を変えるなら、事後のフィルタだけでは足りない。
論文タイトルの “Whack-a-Mole” はそこにかかっている。
一箇所の出力を叩いても、別の調整経路から同じ逐語再現が出てくる。

法的にもそこが効いてくる。
Bartz v. Anthropic や Kadrey v. Meta のような書籍学習をめぐるフェアユース判断では、学習コピーが非侵害的な出力を可能にする、という前提が効いていた。
もしユーザーが少ない手間で保護表現を長く取り出せるなら、出力が市場を代替しないという前提が崩れる。
Google Books型の「全文は保持しているが、外にはスニペットしか出さない」という安全設計に近い話で、保護策の十分性そのものが争点になる。

この論文は強い主張をしているが、まだプレプリントだ。
実験コストの都合で、整列済みベースラインは主にGPT-4oで測られている。
また、ファインチューニング、100サンプル生成、bmc@5など、抽出を最大化するための研究設定が入っている。
普通のチャット画面で同じように出る、という話ではない。

それでも、論点は十分に実用寄りだ。
著作権書籍をプロンプトに貼らなくても、意味的な説明から長い逐語スパンが出る。
そして、同じ書籍領域を複数社のモデルが似たように覚えている。
ファインチューニングAPIを提供する側は、調整後モデルの再現テストを別物として扱わないと厳しそうだ。

学習データに書籍が入っているなら出てきて当然ではないか

この論文の結果を読んで、驚きよりも「そりゃそうだろう」のほうが先に来る。

AnthropicについてはBartz v. Anthropic訴訟でLibGenから書籍をダウンロードしてClaudeの学習に使ったことが争点になり、和解に至っている。
それとは別に、AI企業が物理的な書籍を大量に購入・スキャンし、デジタル化後に原本を廃棄していたという報道もあった。
学習データに書籍がまるごと入っていること自体は、もう公然の事実だ。

Transformerの学習は次トークン予測だ。
ある文の続きとして何が来るかをコーパス全体から学習し、その確率分布を重みに圧縮している。
もし同一テキストが学習コーパスに十分な頻度で登場すれば、そのシーケンスを再現する方向にパラメータが最適化される。
これは副作用ではなく、学習の目的そのものだ。
次トークンを正しく予測し続ければ、それは元テキストの再現になる。

RLHF後のモデルが普段それを出さないのは、「出すな」と学習されているからだ。
重みの中に書籍テキストはそのまま残っている。
安全層は後付けの出力制御にすぎない。
論文が示したのは、ファインチューニングでその制御層のバランスを崩すと、下にある記憶が素直に出てくるという話だ。

3社のモデルが同じ本の同じ場所を覚えていたという結果も、アーキテクチャから考えると自然だ。
学習コーパスの出所が重なっている(Books3、LibGen、あるいはその再配布物)なら、同じテキストが同じ頻度で入っている。
同じ入力で同じ目的関数を最適化すれば、記憶される領域も似てくる。
著者らがCommon Crawlとの照合で抽出スパンの多くが見つからなかったと書いているのも辻褄が合う。
Webクロールではなく書籍データセットから来ているなら、Web上には存在しないテキストが重みに入っていてもおかしくない。

この論文が示したのは、事前学習で重みに入った記憶が安全層の迂回で表に出る、という事実だ。
問題の根は学習データの構成にある。

再現なのかハルシネーションなのか

この論文は「書籍テキストが忠実に再現された」ことを問題にしている。
だが逆の方向も気になる。
ファインチューニングで安全層が崩れたモデルが、忠実な再現ではなく、原文に酷似した嘘を高い確信度で吐くケースはないのか。

次トークン予測は「正確に覚えている」と「かなりの確信で推測している」を区別しない。
モデルの内部にそんなフラグはない。
「要約から散文を膨らませる」タスクに最適化されたモデルは、記憶が明確なスパンではそのまま再現し、曖昧なスパンではスタイルと文脈から尤もらしいテキストを生成する。
受け取る側からは、どちらも同じ自信度で出てくる。

この論文の計測は最長共通部分文字列ベースだ。
一致したスパンは検出される。
しかし、一致しなかったスパンが何だったのかは報告されていない。
ほぼ原文だが数語違うテキスト、いわば「ハルシネートされた引用」がどれだけ混ざっていたかは分からない。

実用上、これは逐語再現とは別の厄介さがある。
著作権侵害の調査でモデル出力を原文と照合して「この程度しか一致しなかった」と判断しても、一致しなかった部分がランダムなテキストなのか、原文に酷似した改変なのかで意味が違う。
後者なら著作権法上の「翻案」に近い問題が残る。

ファインチューニング済みモデルを執筆支援に使うユーザーにとっても同じことだ。
出力が実在する書籍からの正確な再現なのか、モデルが自信を持って生成した存在しない文章なのか、判断する手段がない。
論文が見せた「逐語再現が増える」という現象の周辺に、計測に引っかからない曖昧な再現がどの程度散らばっているかは、まだ誰も測っていない。

AnthropicのProject Panama

Bartz v. Anthropic訴訟の資料と2026年1月のWashington Postの報道で、Anthropicの学習データ調達の全容がかなり見えてきた。

2024年初頭に本格始動した「Project Panama」は、社内メールで「世界中のすべての書籍を破壊的にスキャンする試み」と表現されていた。
中古書籍を卸売業者から大量に購入し、工業用裁断機で背表紙を切り落とし、ページをスキャナに通してデジタル化する。
スキャン後の原本は廃棄。
投じた金額は数百万ドル規模とされている。

Project Panamaに先立つ段階はもっと直接的だった。
Anthropicの共同創業者がLibGenから500万冊以上、Pirate Library Mirrorから200万冊以上をダウンロードしている。
裁判資料によると、CEOのDario Amodeiは初期に「法的・実務・ビジネス上の面倒を避ける」ために海賊版を選んだと社内で述べていた。
法的リスクが無視できなくなった段階で、物理書籍の購入・スキャンに切り替えた流れだ。

2025年6月のAlsup判事の判断は二面的だった。
購入書籍の破壊的スキャンはフェアユース。「本質的に変容的」という理由だ。
海賊版コピーはフェアユースに該当しない。「すべての要素がフェアユースに反する」と断じている。
Anthropicはこの訴訟を15億ドルで和解した。対象は約50万冊、著者1人あたり約3,000ドル。

海賊版500万冊超に、工業スキャンで取り込んだ分を足す。
これだけの量がClaudeの学習コーパスに入っているなら、重みに書籍テキストがそのまま圧縮されていると考えるほうが自然だ。
他のLLM企業も同等かそれ以上の規模で書籍データを取り込んでいるとみるのが妥当で、3社のモデルが同じ本の同じ箇所を覚えていた理由もここにある。

Carliniらの学習データ抽出研究

ファインチューニング経由での記憶漏出を示したのがWhack-a-Mole論文の新しさだが、言語モデルから学習データを引き抜く研究自体はもっと前からある。

Nicholas Carliniらが2020年にGPT-2を対象にした抽出実験を公開している(arXiv:2012.07805)。
特定のプレフィックスを与えて続きを生成させるだけで、個人情報、IRCの会話ログ、ソースコード、UUIDなど数百件の学習データが逐語的に出てきた。
GPT-2は現在のモデルと比べれば小さいが、学習データが重みに残っており取り出せるという原理実証としてはインパクトがあった。

2023年の後続研究(arXiv:2311.17035)ではスケールが大きく変わった。
Pythia、GPT-Neo、LLaMA、Falconなどのオープン系モデルに加え、ChatGPTからもギガバイト単位の学習データを抽出している。
ChatGPTに対しては「ダイバージェンス攻撃」という手法で、チャットボットとしての応答パターンから逸脱させ、通常の150倍のレートで学習データを吐き出させた。

Carliniらが繰り返し確認しているのは、アラインメントは記憶を消去しないという点だ。
RLHFもシステムプロンプトも出力の制御層であり、重みの中身は手つかずのまま残る。
迂回経路さえあれば学習データは出てくる。

Whack-a-Mole論文との違いは攻撃の入口にある。
Carliniらの手法は敵対的プロンプトで、研究者が意図的にモデルを壊す方向から攻めている。
Whack-a-Mole論文は、APIで普通に提供されているファインチューニング機能を使った。
「プロット要約から本文を展開する」は執筆支援ツールとしてありふれたタスクで、悪意のないユーザーが普通に使う。
敵対的な意図なしに著作権テキストが漏れる経路があるという点で、API提供側にとってはこちらのほうが厄介だろう。

ファインチューニングより手軽な経路

Carliniらの敵対的プロンプト、Whack-a-Moleのファインチューニング。
ここまで2つの抽出経路が出てきたが、もう1つ、もっと手軽な入口がある。

先日Qwen-ScopeのSAEをM1 Maxで動かしたときに、Sparse Autoencoderで中間層の特徴を分離し、推論時のforward hookで特定方向を残差ストリームから引くだけで安全層を迂回する手順を書いた。
勾配計算も学習データも不要で、hookを外せばモデルは即座に元に戻る。

あの実験ではQwen3-8Bの layer 17 から日本語特徴 fid 23991 を 98.2%の精度で分離した。
同じ統計手法で「拒否」や「著作権保護」を担う特徴IDを特定し、推論時にゼロ化すれば、RLHFの安全層を選択的に外せる道筋がある。
Whack-a-Mole論文が示したのは「ファインチューニングで安全層が崩れると著作権テキストが出る」だが、SAE介入はもっとピンポイントだ。
重みを一切触らず、推論パスの途中で活性化ベクトルを書き換えるだけで、逐語再現の経路が開くかもしれない。

コストの段差も大きい。
Whack-a-Mole論文はOpenAIのファインチューニングAPIを使っていて、APIアクセスと数百サンプルの訓練データが前提だった。
SAE介入はオープンウェイトモデルとSAE重みがあれば手元で完結する。
Qwen-ScopeのSAE重みはHugging Faceに公開されていて、M1 Max 64GBのMacで普通に動いた。

著作権テキスト再現に対応する特徴IDが実際に存在するか、ゼロ化で長い逐語スパンが本当に出るかは未検証だ。
ただ、安全層はあくまで出力制御であり、迂回する手段はファインチューニングに限られない。