Anima — Cosmos-Predict2ベースの2Bアニメ画像生成モデル、現状と課題

ModelScopeの公式アカウントが「Anima is Now Live on ModelScope!」と投稿していて気になったので調べた。ただし投稿の説明文は「roleplay specialist」「zero persona-drift in long-form dialogue」などLLMの説明としか読めない内容で、実際のモデルとまったく一致していなかった。実態はテキストから画像を生成する拡散モデル。

モデル概要

項目	内容
開発	CircleStone Labs × Comfy Org
パラメータ	20億（2B）
ベースモデル	NVIDIA Cosmos-Predict2-2B-Text2Image
テキストエンコーダ	Qwen3 0.6B base
VAE	Qwen Image VAE
学習データ	数百万枚のアニメ画像 + 約80万枚の非アニメアート（合成データなし）
知識カットオフ	2025年9月（アニメデータ）
VRAM	約7GB（量子化なし）
ライセンス	CircleStone Labs Non-Commercial License（非商用のみ）
ステータス	プレビュー版（学習途中のチェックポイント）

アーキテクチャの特徴

SDXL派生ではなく、NVIDIAのCosmos-Predict2をベースにしている点が新しい。SDXL系のアニメモデル（NoobAI、Illustrious、Animagine）とは完全に別系統。

ただしテキストエンコーダがQwen3 0.6Bとかなり小さい。一般的な軽量モデルでも4B前後が標準なので、ここが大きな制約になっている。

推奨設定

設定	値
解像度	約1MP（1024×1024、896×1152 など）
ステップ数	30〜50
CFG	4〜5
対応環境	ComfyUI（ネイティブ）

プロンプト形式

Danbooruタグ、自然言語、またはその組み合わせに対応。

[品質タグ] [1girl/1boy等] [キャラクター] [作品名] [アーティスト] [一般タグ]

アーティスト指定は @artist_name のプレフィクスが必要。

ユーザー評価（リリース直後の状況）

Civitaiでは113いいね、Hugging Faceでは37件のディスカッションスレッドが立ち、初動の関心は高い。

良い点

軽い: 量子化なしで7GB。消費者GPUでも動く
自然言語プロンプト対応: Danbooruタグを知らなくても使える
新アーキテクチャ: Cosmos-Predict2ベースのアニメモデルとしては初
LoRA学習が動作確認済み: rank 32、512px、VRAM 10GBで学習可能

問題点

推論が遅い: Tesla V100でSDXLの10倍遅いという報告あり
手が崩壊する: 特に @artist_name タグ使用時に顕著
テキストエンコーダが弱い: 0.6Bでは複雑なポーズや構図指示を理解できない。Danbooruタグにあるポーズしか出せないという指摘がある
デフォルトが地味: aestheticチューニングが未実施で、品質タグやアーティスト指定なしだと平坦な出力になる
高解像度に弱い: プレビュー版の限界
ControlNet未対応: エコシステムがまだない
テキスト描画は苦手: 単語レベルなら出るが文章は無理

既存モデルとの比較

項目	Anima	NoobAI-XL	Illustrious-XL	Z-Image
アーキテクチャ	Cosmos-Predict2	SDXL派生	SDXL派生	S3-DiT
パラメータ	2B	SDXL相当	SDXL相当	6B
成熟度	プレビュー	安定版	安定版	安定版
VRAM	約7GB	6〜8GB	6〜8GB	約20GB（BF16）
速度	遅い	SDXL標準	SDXL標準	高速（Turbo版あり）
ControlNet	未対応	豊富	豊富	対応
LoRAエコシステム	ほぼなし	巨大	巨大	成長中
ライセンス	非商用のみ	Open	Open	Apache 2.0

ポイントは2つ。

速度とエコシステム: SDXL系のNoobAI/Illustriousは成熟しきっていて、LoRA・ControlNet・マージモデルの蓄積が桁違い。今からAnimaに移行する理由がない
テキストエンコーダの限界: Z-ImageやFLUX.2 Kleinは軽量でも十分なサイズのテキストエンコーダを積んでいる。0.6Bは根本的に表現力が足りない

テキストエンコーダ問題の詳細

日本語の技術レビュー（dskjal.com）が詳しい。要点:

Animaは「Danbooruタグに存在するポーズしか出力できない」
自然言語で「腕を上げて左を向いている」と書いても、タグとして存在しない構図は再現できない
FLUX.2 KleinやZ-Imageは同じく軽量でも、こういった自由な指示をある程度理解できる

自然言語プロンプト対応を謳っているが、テキストエンコーダの容量が足りず、実質的にはタグベースの生成に制約されている。

ModelScopeでの扱い

ModelScopeにモデルページが存在し、ファイルのダウンロードは可能。ただし推論API・デモ・デプロイ機能は一切提供されていない。ModelScopeのツイートに書かれていた「roleplay specialist」などの文言は画像生成モデルの説明として完全に的外れで、モデルの性質を確認せずにテンプレ的な宣伝文をつけた可能性が高い。

所感

新しいアーキテクチャでアニメ特化という方向性は面白い。Cosmos-Predict2ベースの画像生成モデルが今後増えるなら、その先駆けとしての意味はある。

ただし現状は「プレビュー版」の名の通り、実用面でSDXL系に勝てる要素がほとんどない。速度は10倍遅い、手は崩壊する、テキストエンコーダは弱い、エコシステムはゼロ、ライセンスは非商用のみ。ComfyUIネイティブ対応という点だけは良いが、ComfyUIならNoobAIもIllustriousも普通に動く。

最終版でどこまで改善されるか次第。特に推論速度とテキストエンコーダの制約が解消されないと、既存モデルからの移行動機が生まれない。