FSFがBartz v. Anthropic著作権訴訟の和解通知を受領、GNU FDLライセンス作品の無断学習に声明
2026年3月、Free Software Foundation(FSF)がBartz v. Anthropicの和解通知を受領したことを公式ブログで発表した。大規模言語モデルの著作権問題として注目されるこの訴訟は、AnthropicがLibrary GenesisおよびPirate Library Mirrorのデータセットから著作物を無断でダウンロードしてClaudeの学習に使用したという主張に基づく集団訴訟だ。
訴訟の経緯
地裁はダウンロードした作品を学習に使う行為そのものはフェアユース(著作権法上の公正利用)と判断した。しかし、権利者の許諾なく著作物をダウンロードする行為自体の合法性については係争が続いており、最終的に両者は和解に合意した。
FSFはGNUプロジェクトのプログラムや自由ライセンスで公開された複数の書籍の著作権者として、この和解通知を受け取る当事者の立場にある。特に問題となったデータセットには、Richard StallmanとSam Williamsが執筆した**「Free as in Freedom」**(GNU Free Documentation Licenseで公開)が含まれていた。
「学習」と「取得」は別の問題
この訴訟で重要なのは、「学習に使うこと」と「データを取得する方法」が法的に別問題として扱われている点だ。
地裁がフェアユースと認めたのは、ダウンロード済みの著作物をモデルの学習に使用する行為のほうだ。つまり「LLMの学習目的で著作物を利用すること」は変形的利用(transformative use)にあたる可能性が認められた。一方で、そもそもLibGenやPirate Library Mirrorという海賊版ライブラリから著作物を取得した行為そのものの合法性は、フェアユースとは別の争点として残った。
flowchart TD
A["著作物が存在<br/>(書籍・論文・マニュアル)"] --> B["Library Genesis<br/>Pirate Library Mirror<br/>に海賊版としてアップロード"]
B --> C["Anthropicが<br/>データセットをダウンロード"]
C --> D["Claudeの学習データとして使用"]
D --> E["学習使用 → フェアユース認定"]
C --> F["取得行為 → 合法性が係争に"]
F --> G["和解合意"]
学習をフェアユースと認めること自体は、技術的にも理にかなっている。LLMの学習は著作物を「記憶」するのではなく、テキストの統計的パターンを抽出する処理だ。個別の著作物をそのまま再現する目的ではない以上、変形的利用という整理は法理としては成り立つ。
問題は入口のほうにある。Library Genesisは学術論文や書籍を著者・出版社の許諾なくアップロードする海賊版サイトで、複数の出版社から訴訟を受けている。正規のルートでは入手できない、あるいは入手にコストがかかる著作物を、こうしたシャドウライブラリ経由で大量に取得して学習に使うのは、「利用が変形的かどうか」とは別次元の問題だ。
シャドウライブラリとは
Library GenesisやPirate Library Mirror、Sci-Hub、Z-Libraryなどは「シャドウライブラリ」と総称される。学術論文や書籍を著作権者の許諾なく無料で公開するサイト群で、アクセス格差の解消を理念として掲げるものが多い。
| サイト | 概要 |
|---|---|
| Library Genesis(LibGen) | 書籍・論文を網羅的に収集。300万冊以上。複数のミラーサイトが存在 |
| Sci-Hub | 学術論文特化。DOIを入力するとペイウォールを迂回して論文PDFを取得 |
| Z-Library | LibGenのフォークから発展。2022年にFBIがドメインを押収(テイクダウン=強制閉鎖)されたが復活 |
| Pirate Library Mirror | LibGenのミラーの一つ。Bartz訴訟で名指しされたデータセット |
これらのサイト自体が法的にグレーからブラックな存在だ。Elsevier等の大手出版社はLibGenとSci-Hubに対して繰り返し訴訟を提起し、ドメイン差し止めを勝ち取っている。AI企業がこうしたソースからデータを取得することの法的リスクは、学習行為のフェアユース判断とは独立して存在する。
Anthropicの「スキャン&破棄」アプローチ
訴訟の過程で注目されたのは、Anthropicのデータ取得手法だ。報道やリーク情報によれば、Anthropicは蒸留(他社モデルの出力を使って学習する手法)ではなく、書籍を直接ダウンロード→テキスト抽出→学習データとして処理→原本を破棄、というパイプラインを採用していたとされる。
原本を保持しないことで「著作物のコピーを所有していない」という法的ポジションを取りやすくする意図があったと見られるが、この主張には限界がある。
- 取得行為自体の違法性 — 原本を破棄しようが、海賊版サイトからダウンロードした事実は消えない。「盗んだ本を読んでメモだけ取って本を返した」としても、窃盗の事実がなくなるわけではない
- 学習データとしての利用は残る — モデルのパラメータに反映された以上、著作物の「利用」は継続している。原本のファイルを削除しても、学習済みモデルに著作物の情報が内包されている状態は変わらない
- 規模の問題 — 個人が研究目的でLibGenから数本の論文を取得するのと、企業が商用モデルの学習のために数万〜数十万冊を系統的にダウンロードするのでは、法的評価が異なりうる
皮肉なのは、Anthropicが中国AI3社によるClaude蒸留を告発した件との対比だ。蒸留ではなく原著作物の直接取得を選んだのは、「他社モデルの出力を使った学習」が法的に問題になることをAnthropic自身が理解していたからだろう。しかし、その代替手段として選んだのが海賊版ライブラリからのダウンロードだったというのは、問題を解決したのではなく移動させただけに見える。
GNU FDLとは
GNU Free Documentation License(GNU FDL)は、FSFが策定した文書向けコピーレフトライセンス。ソフトウェアのGPLに相当する文書版として、利用・改変・再配布を基本的に自由に認める。ただし「不変セクション」の設定により一部に制約をかけることも可能なため、ソフトウェアのFLOSS定義への適合を疑う議論が過去にあった。GNU FDLでの公開は「無償利用を許可する」ことと「LLM学習データへの無断組み込みを許可する」ことが別問題である点が今回の論点の一つだ。
FSFの立場
FSFは金銭的な損害賠償を求めることよりも、「コンピューティングの自由を守ること」を優先する方針を示した。具体的には、LLMを開発する企業に対して次の4つの公開を求めている。
| 対象 | 内容 |
|---|---|
| 訓練入力データ | 学習に使用したすべてのコーパス |
| モデルウェイト | 学習済みパラメータ一式 |
| 設定情報 | ハイパーパラメータ・アーキテクチャ設定など |
| ソースコード | 学習・推論に使用したコード |
FSFのブログには「もし訴訟に参加してGNU FDLの侵害が認定されれば、補償としてユーザーへの自由を求めるだろう」という姿勢が明示されている。リソースが限られた非営利組織として、金銭的解決よりも自由ソフトウェアの原則を交渉カードにする方向性だ。
この要求が実現する可能性は低いが、方向性としては興味深い。コピーレフトの論理を「学習に使ったなら、学習結果も同じ条件で公開しろ」と拡張する試みだ。GPLがソフトウェアの「伝播的自由」を実現したように、GNU FDLの条件をLLMの学習成果物にまで及ぼせるかという問題提起になっている。
AI著作権訴訟の全体像
Bartz v. Anthropicに限らず、AI企業のデータ取得手法はそれぞれ異なる争点を抱えている。
| 訴訟 | 原告 | 被告 | 主な争点 |
|---|---|---|---|
| Bartz v. Anthropic | 著作権者集団 | Anthropic | シャドウライブラリからのダウンロード |
| NYT v. OpenAI | The New York Times | OpenAI・Microsoft | 記事の無断学習と再現性 |
| Merriam-Webster v. OpenAI | Merriam-Webster・Britannica | OpenAI | 辞書・百科事典の構造的抽出 |
| Getty v. Stability AI | Getty Images | Stability AI | 画像の無断学習 |
| Seedance著作権問題 | ハリウッドスタジオ群 | ByteDance | 映像作品の無許諾学習とIP再現 |
共通するのは「学習に使うこと自体のフェアユース」と「データ取得手法の合法性」が別の法的問題として並存していること。Bartz訴訟は前者でフェアユースが認められた最初のケースの一つだが、後者(取得手法)で和解に至ったことで、「学習OK、でも取り方がダメ」という線引きが一つ示された形になった。FSFの要求するトレーニングデータ開示に対しては、OpenAI・Anthropic・Googleいずれもビジネスモデル上のリスクとして抵抗している。