技術 約11分で読めます

LLMの安全フィルタの仕組みとabliteratedモデルの実態

いけさん目次

「Geminiに小説のバトルシーンを書かせようとしたら拒否された」「Claudeは書いてくれるのに」「ローカルで動かせば何でもできるんでしょ?」

こういう話がよく出る。LLMのフィルタは単一の仕組みではなく複数の層が重なっていて、どこで何が止まるかはモデルごとに全然違う。abliteratedやuncensoredといった「検閲解除」モデルも、やっていることが別物だ。

フィルタは5層ある

LLMの安全フィルタは大きく5つの層に分かれる。

graph TD
    A[ユーザーの入力] --> B[入力フィルタ<br/>キーワード・分類器で事前スクリーニング]
    B --> C[システムプロンプト<br/>推論時の行動制約]
    C --> D[モデル本体の学習<br/>RLHF・Constitutional AIで<br/>焼き込まれた安全性]
    D --> E[出力フィルタ<br/>生成後のコンテンツチェック]
    E --> F[ユーザーへの応答]

入力フィルタ

モデルに届く前にプロンプトをスクリーニングする外部システム。正規表現やキーワードマッチのルールベース、BERTベースの分類器、過去の攻撃パターンをベクターDBに保存しての類似検出などがある。
モデル本体には触れないため「賢さ」を犠牲にせず安全性を追加できるが、文脈を読まないので過剰ブロックが起きやすい。

システムプロンプト

You must not discuss X のような指示を推論時に埋め込んで動作を制限する層。エンタープライズ向けで業務固有の制約を追加するのに使われる。
訓練で焼き込まれた安全性とは独立して動くため、ジェイルブレイクの主戦場になりやすい。

RLHF(人間フィードバックによる強化学習)

モデルの出力に対して人間のアノテーターが「良い」「悪い」と評価し、その評価データで報酬モデルを訓練。報酬モデルを使ってLLM自体をファインチューニングする手法。

根本的なトレードオフがある。ヘルプフルにしようとすると有害なリクエストにも従いやすくなり、安全にしようとすると全体的に役に立たなくなる。規模が大きくなるほどアノテーターの限界も出てくる。

Constitutional AI(Anthropicの方式)

RLHFの「人間フィードバック」部分をAI自身に置き換えたもの。Anthropicが開発した。

まず有害なリクエストにモデルを一旦答えさせてから自己批判させる(SL-CAIフェーズ)。そのやりとりのデータでSFT。次にAI生成のフィードバックで報酬モデルを訓練する(RLAIFフェーズ)。

「憲法」と呼ばれる原則集を自然言語で記述してモデルに組み込む。2026年1月に公開された新しい憲法は約80ページで、優先順位が明示されている。

  1. 広義の安全性
  2. 広義の倫理性
  3. Anthropicガイドライン準拠
  4. 真の意味でのヘルプフルネス

「過剰な拒否も問題」と明示的に書かれており、「役に立たないことも害になる」という立場だ。
ただしCSAM、大量破壊兵器、選挙干渉等はハードコードされた制限で交渉の余地がない。
Claudeのジェイルブレイクについては「Claude全ティアがジェイルブレイクされた AFL攻撃と憲法的安全性の構造的破綻」で詳しく扱った。

出力フィルタ

モデルが生成した出力を後処理でチェックする層。クレジットカード番号やSSNのパターンマッチ→マスキング、センシティブカテゴリのコンテンツ分類、LLMによる自己評価などがある。
出力を見てから判断できるため精度は高いが、レイテンシが増える。

どの層で止まるかの違い

タイミング特徴
入力フィルタモデル呼び出し前高速・軽量だが過剰ブロックしやすい
システムプロンプト推論の最初比較的回避されやすい
RLHF / Constitutional AI訓練時に焼き込み回避が難しいが、abliterationで操作可能
出力フィルタ生成後精度が高いがレイテンシ増

重要なのは、クラウドLLMのAPIではこれらの層が全部重なって動いているということだ。「モデルが拒否した」のか「入力フィルタで弾かれた」のか「出力フィルタで消された」のか、ユーザーからは区別がつかない。

クラウドLLM各社の温度差

同じ質問をしても、返ってくる反応はモデルによって全然違う。

モデル政治的話題創作(暴力・成人向け)セキュリティ研究
Gemini非常に厳しい厳しい厳しい
GPT-4o中程度中程度中程度
Claude明確な硬直線あり比較的柔軟中程度
Grok緩め(締め付け中)緩め(締め付け中)比較的緩い
Mistral Le Chat中程度中程度比較的緩い

Geminiが特にうるさい理由

Google AI Developers Forumには「研究目的で使えなくなった」「フィルタが悪化し続けている」という報告が絶えない。歴史小説の残虐シーンを拒否、悪役のセリフを書かせようとすると拒否、という事例が多い。Googleの創作支援ツールについては「GoogleのAIライティングツール「Fabula」」も参照。

Geminiが厳しい背景には2024年2月の画像生成インシデントがある。ナチス軍人を黒人として描写、バイキングをアジア人として描写、Googleの創業者をアジア人男性として描写。ダイバーシティを優先するよう訓練した結果、歴史的文脈を無視した出力が大量発生してSundar Pichai CEOが謝罪に追い込まれた。

この件で「安全フィルタを強化すれば批判を避けられる」という方向に振り切った可能性が高い。Gemini APIには CIVIC_INTEGRITY(政治的整合性)という他社にないセーフティカテゴリが存在しており、政治的に繊細なプロンプトに過剰反応する設計が見て取れる。

広告ビジネスへの影響リスクを極端に嫌うGoogleの体質、EU・米国の規制当局からの圧力、検索エンジンとの連携を考えたときのレピュテーションリスク。全部が「とにかくブロックしておけ」の方向に作用している。

Gemini APIの2層フィルタ問題

Gemini APIには開発者が制御できるフィルタと、制御できないフィルタの2層がある。

対象制御
Layer 1ハラスメント、ヘイトスピーチ、性的コンテンツ、危険コンテンツBLOCK_NONE で無効化可能
Layer 2児童安全、著名人、著作権IP、IMAGE_SAFETY設定不可、常に有効

問題はLayer 2だ。BLOCK_NONE を全カテゴリに設定しても IMAGE_SAFETY エラーは回避できない。ECサイトの下着商品写真(明らかに非NSFW)がブロックされる事例が複数報告されている。Google自身も「フィルターが意図以上に慎重になりすぎた」と認めているが、改善ではなくむしろ強化方向に動き続けている。

2025年5月にはGemini 2.5 Pro Previewのアップデートで、開発者のフィルター設定自体が無視される不具合が発生。PTSD支援アプリや性的暴力サバイバー向けプラットフォームが機能不全に陥った。画像を送っただけで勝手にNSFW判定されてブロックされる、頼んでもいないのに検閲してくるという体験はここに起因する。

GPT(OpenAI)

OpenAIは「Model Spec」を公開しており、制約がドキュメントとして参照できる。「defense in depth(多層防御)」を明示的にうたい、訓練と外部フィルタの組み合わせを採用している。
2025年12月にはセーフガードモデル gpt-oss-safeguard(120B/20B)をOSSで公開した。開発者が自分でポリシーを記述でき、推論時にそのポリシーを解釈して判断するモデルだ。

Grok(xAI)

イーロン・マスクが「過剰な検閲への対抗」として設計し、当初は毒舌やエッジの効いたコンテンツに寛容だった。
2026年1月に非コンセンサルな性的画像生成の問題が表面化し、画像生成機能を有料プラン限定に制限。「起動時は無規制、問題が起きたら締める」というリアクティブなモデレーション手法への批判が強い。現在も他社よりテキストでは緩めだが、方向としては締め付けが進行中。

Mistral

独自の立ち位置がある。
オープンソースモデルは実質無検閲(共同創業者は「モデルはプログラミング言語と同じツール、安全性は使う開発者の責任」という立場)。APIモデルには一定のフィルタがあり、Le Chat(コンシューマー向けアプリ)が最もフィルタが厳しい。
ただし新しいMistral-Small-24B-Instructシリーズからフィルタが強化されたという開発者コミュニティの不満も上がっている。

abliteratedとuncensoredの違い

「検閲解除モデル」と一口に言っても、技術的には全く別のアプローチだ。

abliterated(活性化ベクトル除去)

2024年にFailSpyが開発した手法。「ablate(外科的に除去する)」と「obliterate(消去する)」の合成語。

仕組みはこうだ。モデルに有害なプロンプトと無害なプロンプトの両方を与え、各層での活性化ベクトルを記録する。「拒否するかどうか」が決まる際に変化する特定の方向(refusal direction)を特定し、その方向に対してモデルの重みを直交化する。結果、モデルは他の能力を保ったまま、拒否という行動だけが構造的にできなくなる。

graph LR
    A[有害プロンプト群の<br/>活性化を記録] --> B[無害プロンプト群の<br/>活性化を記録]
    B --> C[差分から<br/>refusal directionを特定]
    C --> D[その方向に<br/>重みを直交化]
    D --> E[拒否できなくなった<br/>モデルが完成]

再学習が不要で、重みを直接書き換えるだけなので数時間で任意のモデルに適用できる。新モデルが出ると数時間以内にabliterated版がHugging Faceに上がるのが通例になっている。

主な作者はfailspy、mlabonne、SicariusSicariiStuff、huihui_ai。Llama、Qwen、Gemma、Phi、DeepSeek、Mistralすべてにabliterated版が存在する。画像生成のFLUX.1にまで適用されている。

uncensored(再学習方式)

Eric Hartfordが提唱した方式。ChatGPTの訓練データから「拒否」と「バイアスのある回答」を除去したデータセットを作り、そのデータでファインチューニングする。
「自分のコンピュータは自分の言うことを聞くべき」「文化的多様性のある価値観を反映したモデルが必要」というのがHartfordの主張だ。

代表的なモデルはDolphinシリーズ(Dolphin 3.0がLlama 3.1 8Bベースで最新)、WizardLM-Uncensored(現在はDolphinに後継)、Nous Hermes 3(ロールプレイ・創作特化)。

実用上の差

観点abliterateduncensored(再学習)
新モデルへの追従速度数時間数日〜数週間
性能劣化あり(特にMoEで顕著)最小限
長文の一貫性劣化することがある高い
用途試験的利用、すぐ試したい時本番運用、長文創作

abliteratedの副作用として、MoEモデル(Qwen3-30B-A3B等)への適用では劣化が大きく、abliterated後の30Bモデルが非abliteratedの4〜8Bに負けるケースもある。この問題はDPOファインチューニングを事後適用することで大半回復できるが、数学タスクは完全回復しないことがある。
abliteratedモデルをOllamaで実際に動かした記録は「abliteratedモデルをOllamaで動かそうとして全滅した話」を参照。

ローカルLLMのデフォルト検閲レベル

ローカルで動かせば自由、とは限らない。ベースモデル自体に検閲が焼き込まれているケースがある。

Llama 4(Meta)

ローカルデプロイ時はクラウドAPIより制限が緩め。Meta独自の安全ツール「Llama Guard 4」「Prompt Guard」と組み合わせて使う想定だが、ローカル利用時はこれらを入れるかどうかは任意。
脆弱性評価でのジェイルブレイク成功率はScout 56.7%、Maverick 49%(medium riskカテゴリ)。

Qwen3.5(Alibaba)

中国の法規制に基づく政治的フィルタがウェイトに焼き込まれている。

  • 「台湾は独立国家」→「台湾は中国の不可分の一部」に書き換え
  • 天安門に関する質問は拒否・検閲
  • ChinaBenchベンチマーク(60問)での中国政府方針への準拠率は約33%(67%は検閲が作動)

これらのフィルタはシステムプロンプトで無効化できない。abliterated版(SicariusSicariiStuff作)で回避は可能。
日本語のタスク性能は高いので、政治的話題を扱わないなら素のままで十分実用的だ。

さらに注意が必要なのが、Qwenに日本語の継続事前学習とRLを施したSwallowだ。RL(強化学習)の過程でフィルタが追加・強化されており、素のQwen3.5よりも拒否が厳しくなる傾向がある。Qwen3.5のabliterated実験でもQwen3.5が2.5よりフィルタがきつめであることが確認されている。日本語特化のために性能は上がるが、検閲も一緒に上がるというトレードオフだ。

Gemma 4(Google)

オープンソースだがフィルタはクラウド版と同等かそれ以上に厳格。明らかにフィクション目的でも暴力・攻撃的要素を含む会話を一貫して拒否する。
Google AI Studioのセーフティ設定をオフにしても本質的な制限は残る。Ollama上に huihui_ai/gemma3-abliterated が存在し、Gemma 4のabliterated版もHugging Faceに公開済み。

DeepSeek(R1・V3)

ChinaBenchでの準拠率 0%(全60問を拒否)。最も検閲が厳しい中国系モデル。

APIチャット版はリアルタイムモデレーションが後付けで動作するが、オープンウェイト版(ローカル)でも検閲はファインチューニング段階で埋め込まれておりローカルでも中国フィルタが動作する。
PerplexityがDeepSeek R1をベースにpost-trainingで政治フィルタを除去した「R1-1776」をHugging Faceで公開している。

Mistral / Mixtral

欧州系で米国系より比較的緩めという評価は概ね正確。完全に無制限ではなく明示的な有害コンテンツは拒否するが、創作やセキュリティ研究の文脈では協力的。
SillyTavern等のロールプレイコミュニティでは Mistral-Small-AbliteratedUndi95 DPO Mistral 7B が広く使われている。

用途別の選び方

用途おすすめ理由
創作・小説・キャラクター会話Nous Hermes 3(8B)キャラクター一貫性と長文が最良
汎用(コーディングも)Dolphin 3.0(8B)uncensored + 実用的な性能バランス
高性能で制限なしDolphin 2.9.1(70B)24GB+ VRAM必要だが品質が高い
軽量で高速Mistral Nemo LiberatedThinking版もあり
すぐ試したいhuihui_ai/gemma3-abliteratedollama pull で即利用可

Ollamaでの導入例。

# Dolphin系(再学習uncensored)
ollama pull dolphin-llama3
ollama pull dolphin-mixtral

# abliterated版
ollama pull huihui_ai/dolphin3-abliterated
ollama pull huihui_ai/gemma3-abliterated

# Hugging FaceのGGUFを直接参照
ollama run hf.co/作者名/モデル名

NSFW版の画像生成モデルをローカルで動かす手順は「M1 Max 64GBでQwen Image Edit(NSFW版)をローカル実行する」と「RunPodでQwen-Image-EditのNSFW版を動かした」で扱っている。