Anima — Cosmos-Predict2ベースの2Bアニメ画像生成モデル、現状と課題
ModelScopeの公式アカウントが「Anima is Now Live on ModelScope!」と投稿していて気になったので調べた。ただし投稿の説明文は「roleplay specialist」「zero persona-drift in long-form dialogue」などLLMの説明としか読めない内容で、実際のモデルとまったく一致していなかった。実態はテキストから画像を生成する拡散モデル。
モデル概要
| 項目 | 内容 |
|---|---|
| 開発 | CircleStone Labs × Comfy Org |
| パラメータ | 20億(2B) |
| ベースモデル | NVIDIA Cosmos-Predict2-2B-Text2Image |
| テキストエンコーダ | Qwen3 0.6B base |
| VAE | Qwen Image VAE |
| 学習データ | 数百万枚のアニメ画像 + 約80万枚の非アニメアート(合成データなし) |
| 知識カットオフ | 2025年9月(アニメデータ) |
| VRAM | 約7GB(量子化なし) |
| ライセンス | CircleStone Labs Non-Commercial License(非商用のみ) |
| ステータス | プレビュー版(学習途中のチェックポイント) |
アーキテクチャの特徴
SDXL派生ではなく、NVIDIAのCosmos-Predict2をベースにしている点が新しい。SDXL系のアニメモデル(NoobAI、Illustrious、Animagine)とは完全に別系統。
ただしテキストエンコーダがQwen3 0.6Bとかなり小さい。一般的な軽量モデルでも4B前後が標準なので、ここが大きな制約になっている。
推奨設定
| 設定 | 値 |
|---|---|
| 解像度 | 約1MP(1024×1024、896×1152 など) |
| ステップ数 | 30〜50 |
| CFG | 4〜5 |
| 対応環境 | ComfyUI(ネイティブ) |
プロンプト形式
Danbooruタグ、自然言語、またはその組み合わせに対応。
[品質タグ] [1girl/1boy等] [キャラクター] [作品名] [アーティスト] [一般タグ]
アーティスト指定は @artist_name のプレフィクスが必要。
ユーザー評価(リリース直後の状況)
Civitaiでは113いいね、Hugging Faceでは37件のディスカッションスレッドが立ち、初動の関心は高い。
良い点
- 軽い: 量子化なしで7GB。消費者GPUでも動く
- 自然言語プロンプト対応: Danbooruタグを知らなくても使える
- 新アーキテクチャ: Cosmos-Predict2ベースのアニメモデルとしては初
- LoRA学習が動作確認済み: rank 32、512px、VRAM 10GBで学習可能
問題点
- 推論が遅い: Tesla V100でSDXLの10倍遅いという報告あり
- 手が崩壊する: 特に
@artist_nameタグ使用時に顕著 - テキストエンコーダが弱い: 0.6Bでは複雑なポーズや構図指示を理解できない。Danbooruタグにあるポーズしか出せないという指摘がある
- デフォルトが地味: aestheticチューニングが未実施で、品質タグやアーティスト指定なしだと平坦な出力になる
- 高解像度に弱い: プレビュー版の限界
- ControlNet未対応: エコシステムがまだない
- テキスト描画は苦手: 単語レベルなら出るが文章は無理
既存モデルとの比較
| 項目 | Anima | NoobAI-XL | Illustrious-XL | Z-Image |
|---|---|---|---|---|
| アーキテクチャ | Cosmos-Predict2 | SDXL派生 | SDXL派生 | S3-DiT |
| パラメータ | 2B | SDXL相当 | SDXL相当 | 6B |
| 成熟度 | プレビュー | 安定版 | 安定版 | 安定版 |
| VRAM | 約7GB | 6〜8GB | 6〜8GB | 約20GB(BF16) |
| 速度 | 遅い | SDXL標準 | SDXL標準 | 高速(Turbo版あり) |
| ControlNet | 未対応 | 豊富 | 豊富 | 対応 |
| LoRAエコシステム | ほぼなし | 巨大 | 巨大 | 成長中 |
| ライセンス | 非商用のみ | Open | Open | Apache 2.0 |
ポイントは2つ。
- 速度とエコシステム: SDXL系のNoobAI/Illustriousは成熟しきっていて、LoRA・ControlNet・マージモデルの蓄積が桁違い。今からAnimaに移行する理由がない
- テキストエンコーダの限界: Z-ImageやFLUX.2 Kleinは軽量でも十分なサイズのテキストエンコーダを積んでいる。0.6Bは根本的に表現力が足りない
テキストエンコーダ問題の詳細
日本語の技術レビュー(dskjal.com)が詳しい。要点:
- Animaは「Danbooruタグに存在するポーズしか出力できない」
- 自然言語で「腕を上げて左を向いている」と書いても、タグとして存在しない構図は再現できない
- FLUX.2 KleinやZ-Imageは同じく軽量でも、こういった自由な指示をある程度理解できる
自然言語プロンプト対応を謳っているが、テキストエンコーダの容量が足りず、実質的にはタグベースの生成に制約されている。
ModelScopeでの扱い
ModelScopeにモデルページが存在し、ファイルのダウンロードは可能。ただし推論API・デモ・デプロイ機能は一切提供されていない。ModelScopeのツイートに書かれていた「roleplay specialist」などの文言は画像生成モデルの説明として完全に的外れで、モデルの性質を確認せずにテンプレ的な宣伝文をつけた可能性が高い。
所感
新しいアーキテクチャでアニメ特化という方向性は面白い。Cosmos-Predict2ベースの画像生成モデルが今後増えるなら、その先駆けとしての意味はある。
ただし現状は「プレビュー版」の名の通り、実用面でSDXL系に勝てる要素がほとんどない。速度は10倍遅い、手は崩壊する、テキストエンコーダは弱い、エコシステムはゼロ、ライセンスは非商用のみ。ComfyUIネイティブ対応という点だけは良いが、ComfyUIならNoobAIもIllustriousも普通に動く。
最終版でどこまで改善されるか次第。特に推論速度とテキストエンコーダの制約が解消されないと、既存モデルからの移行動機が生まれない。
関連記事
- Z-Image — FLUXを超えたと言われるAlibaba発の画像生成AI
- BEYOND_REALITY_Z_IMAGE — Z-Image Turboベースのフォトリアル人物特化モデル
- FLUX.2 Klein — 9Bパラメータの軽量画像生成モデルとApple Silicon対応状況
- NovelAIのPrecise Referenceをローカル環境で再現する