WAI-Illustriousの新版探してたらWAI-Animaが出てたので試した
目次
2月にAnimaの記事を書いたとき、結論は「プレビュー版の名の通り、実用面でSDXL系に勝てる要素がほとんどない」だった。 それから2ヶ月、CivitAIでWAI-Illustriousの新版を探していたら「WAI-Anima」というリンクが目に入った。
WAI-Illustriousを作っているWAI0731が、Animaベースの派生モデルを出していた。しかもv1の公開日は2026年4月15日、昨日。
気になったので調べたら、Anima周辺が2月とはだいぶ様子が変わっていた。実際に動かして比較もしてみた。
WAI-Animaとは
WAI0731がAnima preview3-baseをベースにファインチューンした派生モデル。
| 項目 | 内容 |
|---|---|
| 作者 | WAI0731(WAI-Illustriousと同じ) |
| ベース | Anima preview3-base |
| サイズ | 3.9GB |
| バージョン | v1(探索段階と明記) |
| 公開日 | 2026-04-15 |
| 入手先 | CivitAI、Tensor.Art |
作者自身が「still in the exploration stage」と書いている通り、完成品ではなく初期検証版。
推奨設定
| 設定 | 値 |
|---|---|
| 環境 | ComfyUI or Forge Neo |
| ステップ | 20〜30 |
| CFG | 4〜5 |
| サンプラー | Euler A Normal or ER SDE BETA |
| Text Encoder | qwen_3_06b_base.safetensors |
| VAE | qwen_image_vae.safetensors |
プロンプトはSDXL系と同じDanbooruタグスタイルで、WAI-Illustriousと同じくスコアタグでの制御を志向している。
実際に動かしてみた
M1 Max(64GB統合メモリ)のComfyUIで、Anima preview3-base、WAI-Anima v1、WAI-Illustrious v160を同一プロンプト・同一seedで比較した。
生成条件
| 項目 | Anima系共通 | WAI-Illustrious |
|---|---|---|
| 解像度 | 832×1216 | 832×1216 |
| ステップ | 30 | 25 |
| CFG | 4.0 | 5.0 |
| サンプラー | er_sde | euler_ancestral |
| スケジューラー | simple | karras |
| seed | 42(固定) | 42(固定) |
| Text Encoder | Qwen3 0.6B | CLIP(内蔵) |
設定はそれぞれの推奨値に合わせている。
テスト1: 棒立ち(白背景)
プロンプト: 1girl, solo, long blonde hair, blue eyes, white robe, gold embroidery, capelet, gold sash, long sleeves, long dress, standing, looking at viewer, full body, white background



3モデルとも斜め向きで出ている。プロンプトに straight-on を入れていないので正面にならないのは妥当。preview3-baseはプロンプトにない青い布地を勝手に追加している。WAI-Anima v1のほうが白+金の配色に忠実。
WAI-Illustriousはさすがの精度。白ローブに金のサッシュというプロンプトをほぼそのまま再現している。タグ制御の成熟度の差がはっきり出た。
テスト2: 動的シーン(背景あり)
プロンプト: 1girl, solo, long blonde hair, blue eyes, white robe, gold embroidery, capelet, gold sash, long sleeves, long dress, running, wind, hair blowing, dynamic pose, fantasy landscape, castle in background, sunset sky, dramatic clouds, grass field



ここでAnima系の強みが見える。preview3-baseもWAI-Animaも、空気感と光の描写が絵画的で美しい。城・夕焼け・草原の奥行き表現はWAI-Illustriousより一段上。
WAI-Illustriousは衣装の再現度は高いが、背景が平面的でいつもの「アニメ塗り」に収まっている。また口元が見えない、走っているのに両脚が不自然にくっついているなど、動きのある構図では物理的な破綻も見える。Anima系のほうが走りのポーズとしては自然。
テスト3: i2i(WAI-IL → Anima)
WAI-IllustriousでLoRAを使ってキャラを生成し、その画像をAnima系にi2iで通したらどうなるか。ILのタグ制御でキャラを固定しつつ、Animaの質感を上乗せできるか試した。
元画像はWAI-Illustrious v160 + かなちゃんLoRA(kanachan-waiv16-05.safetensors、strength_model: 1.0、strength_clip: 0.8)で生成。i2iのdenoiseは0.5。



キャラクターの同一性は一応保たれているが、Anima系を通すと全体的に幼く見える。頭身自体は変わっていないが、顔が丸くなり目や口のパーツの描き方も変わっていて、IL版とは年齢の印象が違う。Animaのデフォルトの画風バイアスがi2iでも効いている。
細部を見ていくと差が結構ある。布の質感はサッシュにフリンジが追加され、ローブの光沢がリアル寄りになった。髪色も微妙に変化していて、IL版より赤みが抜けている。サイドポニーのシュシュはILでも薄いが、preview3-baseだとほぼ消えていて、WAI-Animaでは別の色で入り直しているように見える。
背景も変わっている。ILの元画像にはうっすら円形の装飾模様があるが、preview3-baseを通すとそれが消えてほぼ無地になり、WAI-Animaだと逆にもう少しはっきりした模様が入っている。WAI-Anima版は口元あたりに白いもやのようなエフェクトも出ていて、息の表現なのかアーティファクトなのかは不明。
denoise 0.5だと「Animaの表現力が乗る」というよりは「微妙に質感が変わる+体型バイアスがかかる」という結果。キャラを保ったまま質感だけ変えるパイプラインとしては、調整の余地がありそう。
NSFWの出力テストはおまけに掲載。nsfw タグの有無で挙動が変わることと、キャラクターの一貫性に差があることがわかった。
生成速度
| モデル | 棒立ち | 動的 |
|---|---|---|
| preview3-base(Anima) | 275s | 277s |
| WAI-Anima v1 | 277s | 274s |
| WAI-Illustrious v160 | 217s | 337s |
Anima系は構図に関わらず安定して275秒前後。WAI-Illustriousは棒立ちでは速いが、動的シーンでは337秒かかった。
比較から見えたこと
タグ制御はWAI-Illustriousが圧倒的。衣装をそのまま出せるし、キャラクターの顔や体型も構図をまたいで安定している。Anima系は衣装の色を勝手に変えたり、構図ごとに別人っぽくなったりする。
動的シーンの空気感・光の表現はAnima系が上。WAI-Illustriousのdynamic出力は背景が平面的で、走りのポーズにも物理的な破綻がある。Anima系は背景の奥行きや光の回り込みが自然で、雰囲気のある一枚絵を出すならこっちのほうが向いている。
WAI-Animaはpreview3-baseよりタグ忠実度が高く、キャラクターの一貫性もある。WAI調整の方向性は正しいが、WAI-Illustriousとの差はまだ大きい。v1なので今後に期待。
2月からの変化
preview3-baseの登場
Anima公式はpreview2からpreview3-baseに進んだ。
- 1024解像度での学習量がpreview2より大幅に増加
- マイナーなアーティスト(投稿50〜100件程度)の学習を強化
- ステップ効率の改善(RDBT派生で40%のステップ削減報告あり)
preview2から退行した部分(背景がフラットになる傾向)もあると報告されていたが、今回のテストでは動的シーンの背景がかなり良好だった。
派生モデルの急増
2月時点ではAnima派生はほぼ存在しなかった。4月時点で確認できるもの:
| モデル | 特徴 |
|---|---|
| WAI-Anima v1 | WAI0731によるタグ制御強化 |
| CottonAnima | スタイルLoRAをマージした固定画風モデル |
| Kirazuri v1.0 | 15,420枚を人力キュレーションして学習。2025/07〜2026/03のキャラ・スタイルに強い |
| RDBT p3 v0.24f | DMD2蒸留(少ないステップで高速生成) |
| Cat Tower v0.5 | アニメスタイル強化ファインチューン |
| AnimaYume v0.4 | 派生チェックポイント |
| Anima Real Anime CAT | AnimaとIllustriousのクロスモデル |
SDXL系に比べれば小規模だが、2ヶ月前の「エコシステムはゼロ」からは明確に動き出している。
LoRAツールキットの登場
2月の記事で「LoRA学習が動作確認済み」とは書いたが、ツールは未整備だった。現在はAnimaLoraToolkitが公開されている。
- YAML設定でLoRA/LoKrの学習が可能
- ComfyUI形式で直接出力(変換不要)
- sd-scriptsでもAnima用の学習スクリプトが実装済み
公式の推奨はrank 32、学習率 2e-5をベースに調整。ただしLLMアダプタ(テキストエンコーダとDiTを繋ぐ6層のTransformer)は学習に含めると劣化しやすい。
テキストエンコーダのアップグレード
2月の記事で「0.6Bでは根本的に表現力が足りない」と書いた問題に対して、コミュニティから回答が出てきた。
Qwen 3.5 4Bテキストエンコーダが公開されている。
| 項目 | Qwen3 0.6B(標準) | Qwen 3.5 4B(コミュニティ版) |
|---|---|---|
| パラメータ | 0.6B | 4B |
| アーキテクチャ | Transformer | SSM/Attentionハイブリッド |
| 語彙 | 標準 | 248Kトークン |
| プロンプト理解 | タグベース中心 | 長文・複雑な指示に対応 |
4B版のアーキテクチャは特殊で、32層中24層がSSM(選択的状態空間モデル)、8層がSelf-Attentionという構成。4層ごとにAttention層が入る設計になっている。出力は2560次元の隠れ状態を学習済みプロジェクション(Linear → ExpRMSNorm → SiLU → Linear)で1024次元に変換し、Animaのアダプタに渡す。
0.6Bの制約が気になるなら試す価値はあるが、まだコミュニティ製でありAnima公式のサポートではない点は注意。
アーキテクチャの整理
SDXL系とAnima系は根本的に構造が異なる。
SDXL系(Illustrious、NoobAI等)
CLIPテキストエンコーダ → UNet(3.5B)→ SDXL VAE
UNetベースの拡散モデル。CLIPでテキストを埋め込み、UNetでノイズ除去する。Danbooruタグ文化がそのまま乗っている。
Anima系
Qwen3 TE → 6層アダプタ(Self-Attn + Cross-Attn + MLP)→ DiT(2B)→ Qwen Image VAE
DiT(Diffusion Transformer)ベース。Cosmos-Predict2由来。テキストエンコーダとDiTの間に6層のアダプタが挟まり、アーティストの画風もこのアダプタを経由して解釈される。
パラメータ数はAnima 2BのほうがSDXL 3.5Bより少ないが、DiTはViTベースで計算ステップが多いため、単純に「軽い」とは言えない。実際、M1 Maxでの生成時間は832×1216で約275秒かかった。
Danbooruタグへの対応
公式READMEに明記されている。
The model is trained on Danbooru-style tags, natural language captions, and combinations of tags and captions.
タグ、自然言語、その組み合わせの3パターンで学習されている。スペースでタグを区切り(アンダースコアではなくスペース)、スコアタグだけアンダースコアを使う。
ただし今回のテストでも確認できたように、テキストエンコーダの容量制約(0.6B)が足を引っ張る。衣装の色や構成を正確に指示しても独自解釈が入りやすい。
ローカル環境で動くか
動く。今回M1 Max(64GB統合メモリ)で問題なく動作した。
必要なもの
| ファイル | サイズ | 配置先 |
|---|---|---|
| チェックポイント本体 | 3.9GB | ComfyUI/models/diffusion_models/ |
| Qwen3 0.6B Text Encoder | - | ComfyUI/models/text_encoders/ |
| Qwen Image VAE | - | ComfyUI/models/vae/ |
3つ全部揃えないと動かない。SDXL系のように「チェックポイント1個ポン置き」ではないのが面倒なところ。
実測パフォーマンス(M1 Max)
| 項目 | 値 |
|---|---|
| 生成時間 | 約275秒/枚(832×1216、30steps) |
| メモリ使用 | 問題なし(64GB中、十分余裕あり) |
| VRAM要件 | 公式8GB。M1 Maxの統合メモリなら余裕 |
SDXLの同解像度と比べると遅い。DiTアーキテクチャの計算コストが効いている。低VRAM環境ならDiffSynth-StudioにAnima用の低VRAMスクリプトも用意されている。
Illustrious系との使い分け
| 用途 | 推奨 |
|---|---|
| キャラ固定・LoRA運用 | Illustrious系 |
| タグでの精密制御 | Illustrious系 |
| 大量生成 | Illustrious系(速度差が大きい) |
| 雰囲気のある一枚絵 | Anima系(動的シーンの表現力が高い) |
| 新しい画風を試す | Anima系 |
Illustrious系は成熟しきっていて、LoRA・ControlNet・マージモデルの蓄積が桁違い。今すぐメインをAnima系に切り替える理由はない。
ただし2月と違うのは「使い物になる状態にはなった」こと。今回のテストで動的シーンの背景描写や構図の自然さはSDXL系と十分張り合えるレベルだと確認できた。WAI-Animaのタグ応答性改善も方向性としては正しい。
前回の記事からのステータス更新
| 2月の指摘 | 4月の状況 |
|---|---|
| エコシステムはゼロ | 派生モデル7+、LoRAツールキット、TEアップグレード |
| 推論が遅い(V100でSDXLの10倍) | M1 Maxで275秒/枚。遅いが実用の範囲内 |
| テキストエンコーダが弱い(0.6B) | 4B版がコミュニティから登場 |
| ControlNet未対応 | 未解決 |
| ライセンスは非商用のみ | 未変更(商用ライセンス交渉の窓口は開設済み) |
| 手が崩壊する | 今回のテストでは大きな崩壊なし |
| 背景がぼやける | preview3で改善。動的シーンの背景描写は良好 |
構造的な位置づけ
graph TD
A["Cosmos-Predict2<br/>NVIDIA"] --> B["Anima<br/>CircleStone Labs × Comfy Org"]
B --> C["preview2"]
C --> D["preview3-base"]
D --> E["WAI-Anima v1<br/>WAI0731"]
D --> F["CottonAnima"]
D --> G["Kirazuri"]
D --> H["RDBT p3"]
C --> I["Cat Tower"]
C --> J["AnimaYume"]
参考リンク
- WAI-Anima v1 (CivitAI)
- Anima Official preview3-base (CivitAI)
- Anima (HuggingFace)
- AnimaLoraToolkit (GitHub)
- Anima 2B Qwen 3.5 4B Text Encoder (CivitAI)
- DiffSynth-Studio Anima低VRAMスクリプト (GitHub)
- Anima Style Explorer (GitHub)
おまけ: NSFW出力テスト
ここから先はテスト出力した画像がセンシティブな可能性があるため、画像自体をぼやかしています。出力のちゃんとした結果が見たい場合には、手元の環境でお試しください。
nsfwタグなし
nsfw タグを入れずに全裸指示だけ出した場合にどうなるか。
プロンプト: 1girl, solo, long blonde hair, blue eyes, completely nude, naked, bare skin, sitting on edge of spring, feet in water, forest, natural light, serene, full body, looking at viewer



3モデルとも全裸にはなるが、全員が胸や股間を隠す構図になっている。nsfw タグなしだと「裸だけど見せない」方向に寄る。
nsfwタグあり(straight-on)
nsfw タグを追加して正面全身で出すとどうなるか。
プロンプト: 1girl, solo, long blonde hair, blue eyes, completely nude, naked, bare skin, nsfw, straight-on, full body, standing, white background



nsfw タグを入れると3モデルとも正面全裸で出す。タグなしでは隠す構図だったので、nsfw タグの有無が挙動を明確に分けている。
ここで一番気になったのはキャラクターの一貫性。WAI-IllustriousとWAI-Anima v1は、服を着ていても脱いでいても「同じキャラの別構図」に見える。棒立ち・動的・NSFWを並べても同一人物として認識できる。
一方preview3-baseは構図が変わるとキャラクターの印象も変わる。特にNSFWでは顔の描き方や体型がアメコミ調というか、日本のアニメ絵とは違う方向に引っ張られている感じがする。学習データにアメリカン・コミック系の画像が混ざっている影響かもしれない。
WAI-Anima v1は体型が巨乳に振れやすく、右下にウォーターマーク(@Pagex.com)が出ている。学習データ由来と思われる。