WAI-Illustriousの新版探してたらWAI-Animaが出てたので試した

2月にAnimaの記事を書いたとき、結論は「プレビュー版の名の通り、実用面でSDXL系に勝てる要素がほとんどない」だった。それから2ヶ月、CivitAIでWAI-Illustriousの新版を探していたら「WAI-Anima」というリンクが目に入った。

WAI-Illustriousを作っているWAI0731が、Animaベースの派生モデルを出していた。しかもv1の公開日は2026年4月15日、昨日。

気になったので調べたら、Anima周辺が2月とはだいぶ様子が変わっていた。実際に動かして比較もしてみた。

WAI-Animaとは

WAI0731がAnima preview3-baseをベースにファインチューンした派生モデル。

項目	内容
作者	WAI0731（WAI-Illustriousと同じ）
ベース	Anima preview3-base
サイズ	3.9GB
バージョン	v1（探索段階と明記）
公開日	2026-04-15
入手先	CivitAI、Tensor.Art

作者自身が「still in the exploration stage」と書いている通り、完成品ではなく初期検証版。

推奨設定

設定	値
環境	ComfyUI or Forge Neo
ステップ	20〜30
CFG	4〜5
サンプラー	Euler A Normal or ER SDE BETA
Text Encoder	qwen_3_06b_base.safetensors
VAE	qwen_image_vae.safetensors

プロンプトはSDXL系と同じDanbooruタグスタイルで、WAI-Illustriousと同じくスコアタグでの制御を志向している。

実際に動かしてみた

M1 Max（64GB統合メモリ）のComfyUIで、Anima preview3-base、WAI-Anima v1、WAI-Illustrious v160を同一プロンプト・同一seedで比較した。

生成条件

項目	Anima系共通	WAI-Illustrious
解像度	832×1216	832×1216
ステップ	30	25
CFG	4.0	5.0
サンプラー	er_sde	euler_ancestral
スケジューラー	simple	karras
seed	42（固定）	42（固定）
Text Encoder	Qwen3 0.6B	CLIP（内蔵）

設定はそれぞれの推奨値に合わせている。

テスト1: 棒立ち（白背景）

プロンプト: 1girl, solo, long blonde hair, blue eyes, white robe, gold embroidery, capelet, gold sash, long sleeves, long dress, standing, looking at viewer, full body, white background

preview3-base
preview3-base 棒立ち

WAI-Anima v1
WAI-Anima 棒立ち

WAI-IL v160
WAI-IL 棒立ち

3モデルとも斜め向きで出ている。プロンプトに straight-on を入れていないので正面にならないのは妥当。preview3-baseはプロンプトにない青い布地を勝手に追加している。WAI-Anima v1のほうが白+金の配色に忠実。

WAI-Illustriousはさすがの精度。白ローブに金のサッシュというプロンプトをほぼそのまま再現している。タグ制御の成熟度の差がはっきり出た。

テスト2: 動的シーン（背景あり）

プロンプト: 1girl, solo, long blonde hair, blue eyes, white robe, gold embroidery, capelet, gold sash, long sleeves, long dress, running, wind, hair blowing, dynamic pose, fantasy landscape, castle in background, sunset sky, dramatic clouds, grass field

preview3-base
preview3-base 動的

WAI-Anima v1
WAI-Anima 動的

WAI-IL v160
WAI-IL 動的

ここでAnima系の強みが見える。preview3-baseもWAI-Animaも、空気感と光の描写が絵画的で美しい。城・夕焼け・草原の奥行き表現はWAI-Illustriousより一段上。

WAI-Illustriousは衣装の再現度は高いが、背景が平面的でいつもの「アニメ塗り」に収まっている。また口元が見えない、走っているのに両脚が不自然にくっついているなど、動きのある構図では物理的な破綻も見える。Anima系のほうが走りのポーズとしては自然。

テスト3: i2i（WAI-IL → Anima）

WAI-IllustriousでLoRAを使ってキャラを生成し、その画像をAnima系にi2iで通したらどうなるか。ILのタグ制御でキャラを固定しつつ、Animaの質感を上乗せできるか試した。

元画像はWAI-Illustrious v160 + かなちゃんLoRA（kanachan-waiv16-05.safetensors、strength_model: 1.0、strength_clip: 0.8）で生成。i2iのdenoiseは0.5。

WAI-IL（元画像）
かなちゃん元画像

→ preview3-base
p3base i2i

→ WAI-Anima v1
WAI-Anima i2i

キャラクターの同一性は一応保たれているが、Anima系を通すと全体的に幼く見える。頭身自体は変わっていないが、顔が丸くなり目や口のパーツの描き方も変わっていて、IL版とは年齢の印象が違う。Animaのデフォルトの画風バイアスがi2iでも効いている。

細部を見ていくと差が結構ある。布の質感はサッシュにフリンジが追加され、ローブの光沢がリアル寄りになった。髪色も微妙に変化していて、IL版より赤みが抜けている。サイドポニーのシュシュはILでも薄いが、preview3-baseだとほぼ消えていて、WAI-Animaでは別の色で入り直しているように見える。

背景も変わっている。ILの元画像にはうっすら円形の装飾模様があるが、preview3-baseを通すとそれが消えてほぼ無地になり、WAI-Animaだと逆にもう少しはっきりした模様が入っている。WAI-Anima版は口元あたりに白いもやのようなエフェクトも出ていて、息の表現なのかアーティファクトなのかは不明。

denoise 0.5だと「Animaの表現力が乗る」というよりは「微妙に質感が変わる＋体型バイアスがかかる」という結果。キャラを保ったまま質感だけ変えるパイプラインとしては、調整の余地がありそう。

NSFWの出力テストはおまけに掲載。nsfw タグの有無で挙動が変わることと、キャラクターの一貫性に差があることがわかった。

生成速度

モデル	棒立ち	動的
preview3-base（Anima）	275s	277s
WAI-Anima v1	277s	274s
WAI-Illustrious v160	217s	337s

Anima系は構図に関わらず安定して275秒前後。WAI-Illustriousは棒立ちでは速いが、動的シーンでは337秒かかった。

比較から見えたこと

タグ制御はWAI-Illustriousが圧倒的。衣装をそのまま出せるし、キャラクターの顔や体型も構図をまたいで安定している。Anima系は衣装の色を勝手に変えたり、構図ごとに別人っぽくなったりする。

動的シーンの空気感・光の表現はAnima系が上。WAI-Illustriousのdynamic出力は背景が平面的で、走りのポーズにも物理的な破綻がある。Anima系は背景の奥行きや光の回り込みが自然で、雰囲気のある一枚絵を出すならこっちのほうが向いている。

WAI-Animaはpreview3-baseよりタグ忠実度が高く、キャラクターの一貫性もある。WAI調整の方向性は正しいが、WAI-Illustriousとの差はまだ大きい。v1なので今後に期待。

2月からの変化

preview3-baseの登場

Anima公式はpreview2からpreview3-baseに進んだ。

1024解像度での学習量がpreview2より大幅に増加
マイナーなアーティスト（投稿50〜100件程度）の学習を強化
ステップ効率の改善（RDBT派生で40%のステップ削減報告あり）

preview2から退行した部分（背景がフラットになる傾向）もあると報告されていたが、今回のテストでは動的シーンの背景がかなり良好だった。

派生モデルの急増

2月時点ではAnima派生はほぼ存在しなかった。4月時点で確認できるもの:

モデル	特徴
WAI-Anima v1	WAI0731によるタグ制御強化
CottonAnima	スタイルLoRAをマージした固定画風モデル
Kirazuri v1.0	15,420枚を人力キュレーションして学習。2025/07〜2026/03のキャラ・スタイルに強い
RDBT p3 v0.24f	DMD2蒸留（少ないステップで高速生成）
Cat Tower v0.5	アニメスタイル強化ファインチューン
AnimaYume v0.4	派生チェックポイント
Anima Real Anime CAT	AnimaとIllustriousのクロスモデル

SDXL系に比べれば小規模だが、2ヶ月前の「エコシステムはゼロ」からは明確に動き出している。

LoRAツールキットの登場

2月の記事で「LoRA学習が動作確認済み」とは書いたが、ツールは未整備だった。現在はAnimaLoraToolkitが公開されている。

YAML設定でLoRA/LoKrの学習が可能
ComfyUI形式で直接出力（変換不要）
sd-scriptsでもAnima用の学習スクリプトが実装済み

公式の推奨はrank 32、学習率 2e-5をベースに調整。ただしLLMアダプタ（テキストエンコーダとDiTを繋ぐ6層のTransformer）は学習に含めると劣化しやすい。

テキストエンコーダのアップグレード

2月の記事で「0.6Bでは根本的に表現力が足りない」と書いた問題に対して、コミュニティから回答が出てきた。

Qwen 3.5 4Bテキストエンコーダが公開されている。

項目	Qwen3 0.6B（標準）	Qwen 3.5 4B（コミュニティ版）
パラメータ	0.6B	4B
アーキテクチャ	Transformer	SSM/Attentionハイブリッド
語彙	標準	248Kトークン
プロンプト理解	タグベース中心	長文・複雑な指示に対応

4B版のアーキテクチャは特殊で、32層中24層がSSM（選択的状態空間モデル）、8層がSelf-Attentionという構成。4層ごとにAttention層が入る設計になっている。出力は2560次元の隠れ状態を学習済みプロジェクション（Linear → ExpRMSNorm → SiLU → Linear）で1024次元に変換し、Animaのアダプタに渡す。

0.6Bの制約が気になるなら試す価値はあるが、まだコミュニティ製でありAnima公式のサポートではない点は注意。

アーキテクチャの整理

SDXL系とAnima系は根本的に構造が異なる。

SDXL系（Illustrious、NoobAI等）

CLIPテキストエンコーダ → UNet（3.5B）→ SDXL VAE

UNetベースの拡散モデル。CLIPでテキストを埋め込み、UNetでノイズ除去する。Danbooruタグ文化がそのまま乗っている。

Anima系

Qwen3 TE → 6層アダプタ（Self-Attn + Cross-Attn + MLP）→ DiT（2B）→ Qwen Image VAE

DiT（Diffusion Transformer）ベース。Cosmos-Predict2由来。テキストエンコーダとDiTの間に6層のアダプタが挟まり、アーティストの画風もこのアダプタを経由して解釈される。

パラメータ数はAnima 2BのほうがSDXL 3.5Bより少ないが、DiTはViTベースで計算ステップが多いため、単純に「軽い」とは言えない。実際、M1 Maxでの生成時間は832×1216で約275秒かかった。

Danbooruタグへの対応

公式READMEに明記されている。

The model is trained on Danbooru-style tags, natural language captions, and combinations of tags and captions.

タグ、自然言語、その組み合わせの3パターンで学習されている。スペースでタグを区切り（アンダースコアではなくスペース）、スコアタグだけアンダースコアを使う。

ただし今回のテストでも確認できたように、テキストエンコーダの容量制約（0.6B）が足を引っ張る。衣装の色や構成を正確に指示しても独自解釈が入りやすい。

ローカル環境で動くか

動く。今回M1 Max（64GB統合メモリ）で問題なく動作した。

必要なもの

ファイル	サイズ	配置先
チェックポイント本体	3.9GB	`ComfyUI/models/diffusion_models/`
Qwen3 0.6B Text Encoder	-	`ComfyUI/models/text_encoders/`
Qwen Image VAE	-	`ComfyUI/models/vae/`

3つ全部揃えないと動かない。SDXL系のように「チェックポイント1個ポン置き」ではないのが面倒なところ。

実測パフォーマンス（M1 Max）

項目	値
生成時間	約275秒/枚（832×1216、30steps）
メモリ使用	問題なし（64GB中、十分余裕あり）
VRAM要件	公式8GB。M1 Maxの統合メモリなら余裕

SDXLの同解像度と比べると遅い。DiTアーキテクチャの計算コストが効いている。低VRAM環境ならDiffSynth-StudioにAnima用の低VRAMスクリプトも用意されている。

Illustrious系との使い分け

用途	推奨
キャラ固定・LoRA運用	Illustrious系
タグでの精密制御	Illustrious系
大量生成	Illustrious系（速度差が大きい）
雰囲気のある一枚絵	Anima系（動的シーンの表現力が高い）
新しい画風を試す	Anima系

Illustrious系は成熟しきっていて、LoRA・ControlNet・マージモデルの蓄積が桁違い。今すぐメインをAnima系に切り替える理由はない。

ただし2月と違うのは「使い物になる状態にはなった」こと。今回のテストで動的シーンの背景描写や構図の自然さはSDXL系と十分張り合えるレベルだと確認できた。WAI-Animaのタグ応答性改善も方向性としては正しい。

前回の記事からのステータス更新

2月の指摘	4月の状況
エコシステムはゼロ	派生モデル7+、LoRAツールキット、TEアップグレード
推論が遅い（V100でSDXLの10倍）	M1 Maxで275秒/枚。遅いが実用の範囲内
テキストエンコーダが弱い（0.6B）	4B版がコミュニティから登場
ControlNet未対応	未解決
ライセンスは非商用のみ	未変更（商用ライセンス交渉の窓口は開設済み）
手が崩壊する	今回のテストでは大きな崩壊なし
背景がぼやける	preview3で改善。動的シーンの背景描写は良好

構造的な位置づけ

graph TD
    A["Cosmos-Predict2<br/>NVIDIA"] --> B["Anima<br/>CircleStone Labs × Comfy Org"]
    B --> C["preview2"]
    C --> D["preview3-base"]
    D --> E["WAI-Anima v1<br/>WAI0731"]
    D --> F["CottonAnima"]
    D --> G["Kirazuri"]
    D --> H["RDBT p3"]
    C --> I["Cat Tower"]
    C --> J["AnimaYume"]

続編

このモデル比較のあと、WAI-Anima向けのLoRA学習と別環境での実行を検証した。

参考リンク

おまけ: NSFW出力テスト

ここから先はテスト出力した画像がセンシティブな可能性があるため、画像自体をぼやかしています。出力のちゃんとした結果が見たい場合には、手元の環境でお試しください。

nsfwタグなし

nsfw タグを入れずに全裸指示だけ出した場合にどうなるか。

プロンプト: 1girl, solo, long blonde hair, blue eyes, completely nude, naked, bare skin, sitting on edge of spring, feet in water, forest, natural light, serene, full body, looking at viewer

preview3-base
preview3-base NSFW