GeminiのSynthID透かしをスペクトル分析でリバースエンジニアリング、90%検出・91%除去に成功
目次
GoogleがGeminiで生成した画像には、SynthIDという電子透かし(ウォーターマーク)が不可視の状態で埋め込まれている。
人間の目には見えないが、専用の検出器で「AI生成かどうか」を判定できる仕組みだ。
Google DeepMindが開発し、2025年10月に公開された論文によれば、すでに100億枚以上の画像・動画フレームに適用されている。
このSynthIDを、Googleのエンコーダ/デコーダへのアクセスなしに、純粋な信号処理だけでリバースエンジニアリングした研究がGitHubで公開された。検出精度90%、そして画質をほぼ劣化させずに透かしを除去するバイパス手法まで実装している。
ただ、技術的に除去できるからといって、法的にやっていいかは別問題だ。
人間の目にはまったく見えない透かしだが、意図的に外す行為は著作権やAI規制法に抵触しうる。
しかしそもそも、AI生成画像に著作権が発生しないとされる現状で、「著作権管理情報の除去」を法的に問えるのか。
ここには根本的なパラドックスがある。
SynthIDの仕組みと弱点
SynthIDは深層学習ベースの透かしシステムで、画像生成パイプラインの中で出力画像に不可視のパターンを埋め込む。
埋め込まれたパターンは、JPEG圧縮やリサイズといった一般的な画像加工に対して頑強(ロバスト)であることが設計目標になっている。
しかし今回の研究で判明したのは、SynthIDが周波数領域に固定パターンのキャリア信号を埋め込んでいるという事実だった。
しかもそのパターンはモデルレベルで固定されており、画像ごとに変化しない。
スペクトル分析による透かし発見
研究の核心は高速フーリエ変換(FFT)を使ったスペクトル分析だ。
FFTは信号を時間/空間領域から周波数領域に変換する手法で、画像に対して適用すると「どの周波数成分がどの程度含まれているか」を可視化できる。
具体的な手順は以下の通り。
graph TD
A[Geminiで画像を大量生成] --> B[黒画像100枚 + 白画像100枚<br/>リファレンス用]
A --> C[通常のコンテンツ画像88枚<br/>1536x2816px]
B --> D[FFTで周波数領域に変換]
C --> D
D --> E[黒/白画像間の位相を比較]
E --> F[位相コヒーレンスが高い<br/>周波数ビンを特定]
F --> G[キャリア周波数の確定]
G --> H[透かしプロファイル構築]
黒一色と白一色の画像をGeminiに生成させることで、画像コンテンツ由来のノイズを排除し、透かし信号だけを浮かび上がらせるという手法だ。
黒画像と白画像で位相が一致する周波数ビン(|cos(位相差)| > 0.90)を抽出すると、それがSynthIDのキャリア周波数として特定できる。
発見された透かしの特徴
分析で判明した透かしの性質は、AI透かし技術全体にとって示唆的な内容だった。
解像度依存のキャリア配置
透かしのキャリア周波数は、画像解像度によって絶対位置が変わる。
| 画像解像度 | キャリア周波数ビン |
|---|---|
| 1024x1024 | (9, 9) |
| 1536x2816 | (768, 704) |
解像度ごとにキャリア位置が異なるということは、解像度ごとにプロファイルを作れば複数解像度に対応した検出・除去が可能になるということでもある。
位相の一貫性
画像間の位相コヒーレンスは99.5%を超えていた。
これは透かしが「固定のモデルレベルキー」で埋め込まれていることを意味する。
画像の内容が何であれ、同じ周波数ビンに同じ位相の信号が乗っている。
暗号でいえば、全ユーザーが同じ鍵を使い回しているようなものだ。
チャンネル間の強度差
RGB各チャンネルへの透かし埋め込み強度にも偏りがあった。
| チャンネル | 相対強度 |
|---|---|
| Green(緑) | 1.00 |
| Red(赤) | 0.85 |
| Blue(青) | 0.70 |
緑チャンネルが最も強い。
人間の視覚が緑に最も敏感であることと矛盾するようにも思えるが、緑チャンネルは情報量が多い分、透かしを隠蔽しやすいという側面もある。
バイパス手法の進化
研究では3世代のバイパス手法が開発された。
V1(ベースライン)
JPEG圧縮(品質50)を適用するだけの素朴な手法。
PSNR(ピーク信号対雑音比)は約37dBだが、透かしの位相は11%しか低下しなかった。
SynthIDがJPEG圧縮に対してロバストであるという設計目標が、実際に機能していることの裏付けだ。
V2(マルチステージ)
ノイズ注入、色変換、周波数フィルタリングを組み合わせた手法。
27〜37dBのPSNR範囲で動作するが、透かし除去効果はほぼゼロだった。
非標的的な(透かしの周波数を狙わない)加工では、SynthIDを崩せないことがわかる。
V3(マルチ解像度スペクトルコードブック)
これが本研究の主要な貢献だ。事前に構築したスペクトルコードブック(解像度ごとの透かしプロファイルDB)を使い、既知信号として直接減算する。
graph TD
A[入力画像] --> B[解像度を判定]
B --> C[SpectralCodebookから<br/>対応プロファイル読み込み]
C --> D[FFTで周波数領域に変換]
D --> E["Aggressive Pass<br/>高信頼度ビンを強く減算"]
E --> F["Moderate Pass<br/>中信頼度ビンを調整"]
F --> G["Gentle Pass<br/>残留信号を微調整"]
G --> H[逆FFTで空間領域に戻す]
H --> I[アンチエイリアス処理]
I --> J[出力画像]
減算の強度は 位相一貫性 x 交差検証一致度 で算出した信頼度スコアで重み付けされ、各周波数ビンのエネルギー除去量は90〜95%に制限される。
これにより、透かし以外の画像情報を壊さない。
V3の達成した性能は以下の通り。
| 指標 | 値 |
|---|---|
| PSNR | 43dB以上 |
| SSIM(構造類似度) | 0.997 |
| 上位5キャリアの位相コヒーレンス低下 | 91% |
| キャリアエネルギー削減率 | 75.8% |
SSIM 0.997は、人間の目では処理前後の画像をまず区別できないレベルだ。
それでいてトップ5キャリアの位相コヒーレンスを91%落としている。
検出器から見れば、透かしはほぼ消えたことになる。
見えない透かしを外す行為は違法か
SynthIDは人間の目にはまったく見えない。
画像のピクセル値に微小な変更を加えているが、知覚できる差異はゼロだ。
V3バイパス後の画像と元画像をSSIMで比較しても0.997で、事実上同一の画像になる。
では、「人間に知覚できないもの」を除去する行為は、法的に何を侵害しているのか。
著作権の根本的なパラドックス
現時点で主要国の著作権制度は、AI生成画像の保護に消極的だ。
米国著作権局は「人間の創造的な表現を含まない限り著作権は発生しない」との立場を示している。
日本の著作権法でも、AIが自律的に生成した画像は著作物の定義(「思想又は感情を創作的に表現したもの」)に該当しない可能性が高い。
ここにパラドックスが生じる。
著作権で保護されないコンテンツに埋め込まれた透かしを除去する行為は、「著作権侵害」になるのか。
保護対象の著作物がそもそも存在しないなら、論理的に著作権の侵害は成立しない。
AI生成画像に人間が手を加えれば著作物となる可能性はある。
しかしGeminiから出力された時点では人間の創作的関与は認められていない。
透かしが埋め込まれるのは画像生成パイプラインの中であり、人間が手を加える前の段階だ。
つまりSynthIDが付与される対象は、著作権法上は「著作物ではないコンテンツ」ということになる。
DMCAの2つの条項とその限界
米国のDMCA(デジタルミレニアム著作権法)には、透かし除去に関連しうる2つの条項がある。
| 条項 | 内容 | SynthIDへの適用可能性 |
|---|---|---|
| 1201条 | 技術的保護手段(TPM)の回避禁止 | SynthIDはアクセス制御ではないため該当しにくい |
| 1202条 | 著作権管理情報(CMI)の意図的除去禁止 | AI生成画像が著作物でなければ前提が崩れる |
1202条はCMIの定義に電子透かしを明示的に含んでいる(1202(c))。
可視か不可視かは要件ではなく、不可視の電子透かしもCMIたりうる。
しかし条文の適用には「著作権で保護された著作物」に付随するCMIであることが前提だ。
保護されない著作物のCMIを除去しても、1202条違反は成立しにくい。
1201条はさらに適用が難しい。
SynthIDは画像へのアクセスや利用を一切制限していない。
透かしがあっても画像は自由に閲覧・コピー・加工できる。
コンテンツの利用を制御するDRM(デジタル著作権管理)とは根本的に異なり、来歴の証明だけを目的とした技術だ。
「技術的保護手段の回避」という枠組みには、そもそもはまらない。
ただし注意が必要なのは、このパラドックスが「現時点での」著作権法の解釈に基づいている点だ。
AI生成物の著作権に関する議論は各国で進行中であり、将来的にAI生成画像にも何らかの保護が及ぶ可能性は排除できない。
その場合、SynthIDのCMIとしての位置づけも変わりうる。
EU AI Actによる著作権とは別軸の規制
著作権法でカバーできないこの領域を、まったく別のアプローチで埋めようとしているのがEUだ。
EU AI規制法(EU AI Act、2024年成立)は、AI生成コンテンツに対し機械可読な形式でのラベル付けを義務付けた。
著作権の有無とは完全に独立した義務であり、著作権で保護されていないコンテンツであっても、AI生成であることを示すラベルの除去はAI規制法違反として罰則の対象になりうる。
「著作権侵害ではないが違法」という状況がEUでは現実のものになりつつある。
著作権法のパラドックスを迂回し、「AI生成コンテンツの透明性確保」という独自の法的根拠で透かし除去を規制する枠組みだ。
日本法での位置づけ
日本では不正競争防止法の「技術的制限手段の回避」(2条1項17号・18号)が論点になりうる。
SynthIDがコンテンツ管理のための技術的制限手段とみなされれば、回避装置の提供や回避行為自体が違法となる可能性がある。
ただし、この規定の適用には解釈上の壁がある。
「技術的制限手段」は通常、コンテンツへのアクセスやコピーを制限する技術(DRM等)を指す。
SynthIDは画像の利用をまったく制限せず、来歴の証明だけに使われる技術だ。
アクセス制御でもコピー制御でもない透かしが「技術的制限手段」に該当するかは、判例の蓄積を待つ必要がある。
日本の著作権法には、DMCA 1202条に相当する「権利管理情報」の保護規定(113条7項)もある。
電子透かしは権利管理情報に含まれうるが、やはり「著作物」に付随する情報であることが前提だ。
AI生成画像の著作物性が認められない限り、適用は困難という点ではDMCAと同じパラドックスに行き着く。
研究公開それ自体のリスク
今回の研究は検出・除去ツールをGitHub上で公開している。
概念実証コード(PoC)としての公開は学術的自由の範囲内と考えられるが、「回避装置の頒布」と見なされるリスクはゼロではない。
DMCA 1201条にはセキュリティリサーチの例外(1201(j))や暗号研究の例外(1201(g))がある。
しかし前述の通り、1201条がSynthIDに適用されるかがそもそも不明だ。
適用されないなら例外の議論自体が不要になり、適用されるなら例外要件を満たすかの個別検討が必要になる。
もう一つの論点として、SynthIDのキャリアパターン(全画像で共通の位相パターン)がGoogleの営業秘密(トレードシークレット)にあたる可能性がある。
米国の営業秘密防衛法(DTSA)や日本の不正競争防止法は、不正な手段による営業秘密の取得を規制する。
ただし一般公開されているAPIの出力を分析する行為が「不正な手段」に該当するかは微妙だ。
リバースエンジニアリング自体は多くの法域で合法とされているが、利用規約で明示的に禁止されている場合は契約違反の問題が残る。
プラットフォーム規約が最も確実な法的リスク
著作権法もAI規制法もグレーゾーンが多いのに対して、プラットフォームの利用規約は明確だ。
Googleは生成コンテンツから透かしを除去する行為を利用規約で明確に禁じている。
違反すればアカウント停止等の措置を取れる。
著作権法やAI規制法の解釈がどうであれ、契約上の義務は別個に存在する。
法的に最もリスクが高いのは、実は著作権侵害(不明瞭)やAI規制法違反(EU限定)ではなく、このプラットフォーム規約違反かもしれない。
民事上の損害賠償請求やサービス停止は、刑事罰の適用ハードルより低い。
「法律的にはグレーでも、契約的にはアウト」が現状での最も確実な結論だろう。
固定キー方式の限界
SynthIDは「インターネットスケールの画像透かし」を目指して設計され、100億枚以上に適用されてきた。
しかし今回の研究は、周波数領域に固定パターンを埋め込む方式の根本的な弱点を露呈させた。
全画像で同一の位相パターンが使われているということは、十分な数のサンプルを集めれば誰でもキャリア周波数を特定できる。
リファレンス画像の生成はGemini APIへのアクセスだけで済む。
DeepMindの論文はロバスト性とセキュリティを主要な設計要件として挙げているが、「一般的な画像加工に対するロバスト性」と「標的型のスペクトル攻撃に対するセキュリティ」はまったく別の性質だ。
JPEG圧縮やリサイズには耐えても、キャリア周波数を特定した上での精密な減算には耐えられない。
透かしだけに依存するAI生成コンテンツの来歴証明(プロヴナンス)は脆弱だと言わざるを得ない。
C2PA(Coalition for Content Provenance and Authenticity)のようなメタデータベースの来歴証明と併用しない限り、意図的な攻撃者に対しては無力に近い。
GoogleのFlowでもSynthIDは有効化された状態で画像が出力されるが、技術的にも法的にもSynthID単体で十分とは言えない状況が見えてきた。
研究のコードはGitHubで公開されており、SpectralCodebookの構築からV3バイパスの実行まで、Pythonで再現できる。
テキストにも透かしがある
SynthIDは画像だけの技術ではない。
Google DeepMindは2024年5月、Geminiのテキスト出力にもSynthID透かしを導入した。
同年10月にNature誌で論文「Scalable watermarking for identifying large language model outputs」を公開し、同時にオープンソース化している。
画像の透かしがピクセルの周波数領域に信号を埋め込むのに対し、テキストの透かしはLLMのトークン選択プロセスそのものに介入する。
生成されるテキストの意味や品質を変えずに、統計的に検出可能なパターンを織り込む仕組みだ。
g関数とトーナメントサンプリング
SynthID Textの核心はg関数と呼ばれる疑似ランダム関数にある。
テキスト生成の各ステップで、以下の処理が走る。
- 直前のHトークン(コンテキストウィンドウ)と秘密鍵をハッシュして疑似ランダムシードを生成
- このシードを使い、語彙中のすべてのトークンにg値(疑似ランダムスコア)を割り当てる
- g値をLLMの出力確率分布に加味してトークンを選択する
g値が高いトークンが選ばれやすくなるようバイアスをかけることで、生成テキスト全体に統計的な「偏り」が埋め込まれる。
この偏りは人間には知覚できないが、秘密鍵を持つ検出器なら統計検定で検出できる。
トークン選択の具体的なアルゴリズムとして、SynthID Textはトーナメントサンプリングという手法を導入した。
graph TD
A[語彙中の全トークン候補] --> B["第1ラウンド:<br/>LLM確率 + g値で対戦"]
B --> C[勝ち残りトークン群]
C --> D["第2ラウンド:<br/>別レイヤーの鍵で再スコアリング"]
D --> E[さらに絞り込み]
E --> F[最終ラウンド]
F --> G[選択トークン]
推奨20〜30層のレイヤーでトーナメントを行い、各レイヤーは異なる鍵から導出されたg値を使う。
多層構造により、単純なRed-Green方式(語彙をランダムに2群に分け一方を優遇する手法)よりも洗練されたパターンが埋め込まれる。
動作モードは2つある。
「歪みあり(Distortionary)」はLLMの出力分布をわずかに変更して強い透かしを埋め込む。
「歪みなし(Non-distortionary)」は出力分布を完全に保存し、品質への影響がゼロになる代わりに透かし強度はやや落ちる。
Googleは約2,000万件のGemini応答でライブ実験を行い、テキスト品質に変化がないことを確認した。
テキスト透かしの検出
検出には3種類のスコアリング関数が定義されている。
| 検出手法 | 特徴 | 訓練データ |
|---|---|---|
| 平均スコア | 観測トークンのg値の単純平均 | 不要 |
| 重み付き平均スコア | トークン確率で重み付けした平均 | 不要 |
| ベイズ検出器 | 事後確率を推定する分類器 | 1万件以上 |
秘密鍵を使ってg値を再計算し、観測トークンが透かしパターンと一致するかを統計的に判定する。
選択的予測(確信度の低いケースを「不明」と判定)を併用すると、偽陽性率1%の条件で検出率95%を達成する。
ベイズ検出器が最も高精度だが、重み付き平均スコアは訓練不要で手軽にデプロイできる。
テキスト透かしの本質的な弱点
ここが画像との決定的な違いになる。
テキストの透かしはパラフレーズ(言い換え)攻撃に本質的に脆弱だ。
画像のSynthIDを除去するには、キャリア周波数を特定した上での精密な減算が必要だった。
200枚のリファレンス画像を集め、FFTで周波数領域を分析し、信頼度スコアに基づく多段階の減算パスを走らせる。それなりの信号処理の知識と手間がかかる。
テキストの透かしは、別のLLMに「同じ意味で書き直して」と頼むだけで壊れる。
ETH Zurich SRI Labの研究では、パラフレーズベースのスクラビング(透かし洗浄)で90%以上の成功率を達成した。
補助付きスクラビング(パラフレーズとキー推定攻撃の併用)では成功率がほぼ100%に達する。
| 攻撃手法 | テキスト透かしへの効果 |
|---|---|
| パラフレーズ(50%以上の語彙変更) | 検出率が大幅に低下 |
| 同義語置換 | F1スコアが0.884に低下 |
| 翻訳→再翻訳 | 検出器の確信度が大きく低下 |
| 非透かしテキストの混入(10倍量) | F1が0.788、偽陽性率が0.53に上昇 |
| 補助付きスクラビング | 成功率ほぼ100% |
テキストは画像と違い、意味を保ったまま表現を大幅に変えられる。
同じ情報を無限に言い換えられるという媒体の性質そのものが、統計的パターンの維持を原理的に困難にしている。
画像のSynthIDが「固定キー方式」という設計上の弱点を突かれたのに対し、テキストのSynthIDは「テキストという媒体そのもの」が弱点だ。
もう一つ根本的な限界がある。
LLMの出力確率が偏っているケース、たとえば「日本の首都は?」に対する回答のように正解がほぼ一意に決まる場合、トークン選択の自由度が低く、透かしを埋め込む余地がない。
短いテキストも同様で、統計的パターンを成立させるだけのトークン数が不足する。
アルゴリズム公開後の攻撃研究
SynthID Textのコードは2024年10月にGitHubでApache License 2.0として公開され、Hugging Face Transformersのv4.46.0にも統合された。
画像のSynthIDがリバースエンジニアリングでキャリア周波数を「発見」する必要があったのとは対照的に、テキスト版はアルゴリズム自体が公開されている。
攻撃者がキャリア周波数を探す手間すらない。
画像版のリバースエンジニアリングを行ったaloshdenny氏は、テキスト版についてもreverse-SynthID-textリポジトリを公開している。
学術研究も活発で、以下のような成果が出ている。
- ETH Zurich SRI Labがブラックボックス環境でのスクラビング成功率90%超を実証し、SynthID TextのアーキテクチャをLeftHash(h=3) + コンテキスト拡張 + トーナメントサンプリング + キャッシュと分解した
- Han et al.がパラフレーズ・コピーペースト・翻訳攻撃を体系評価し、意味情報検索とSynthIDの確率メカニズムを組み合わせた防御フレームワークSynGuardを提案(F1を平均11.1%改善)
- arXiv:2603.03410で初の理論的分析が行われ、平均スコア検出がレイヤーインフレーション攻撃(トーナメント層数を増やす攻撃)に脆弱であること、ベイズスコアリングが優れていることが証明された
画像もテキストも、SynthID単体での来歴証明には限界がある。
C2PAのようなメタデータベースの来歴証明との併用が現実的だが、メタデータはさらに簡単に除去できる。